通俗 地 进 ， 计 算 机 视 部 融 是 给 计算 机 安 委 上 眼睛 (照相 机 ) 和 大 脑 (算法 ) ， 让 其 能 够 感知 周围 的 环境 。 它 是 对 生物 视 完 的 
一 种 模拟 ， 通 单 的 做 法 是 通过 对 采集 的 图 像 或 者 视频 进行 处 理 来 获得 相应 场景 的 三 维 信息 。 计 算 机 视觉 不 仅 应 用 在 计算 机 科学 和 
工程 、 信 号 处 理 、 物 理学 、 应 用 数学 和 统计 学 中 ， 也 广泛 应 用 在 神经 生理 学 和 认 知 科学 等 领域 ， 友 展 前 景 可 见 一 斑 。 


工 欲 善 其 事 ， 必 先 利 其 器 。 作 为 如 今 开 友 计 算 机 视 完 应 用 最 流行 的 库 之 一 ，OpenCV 不 但 能 够 实时 运行 许多 不 同 的 计算 机 视 
部 算 法 ， 而 且 几 乎 可 以 兼容 所 有 的 平台 。 


本 书本 着 学 以 致 用 的 精 昼 ， 每 章 都 包含 现实 世界 的 例子 和 示例 代码 ， 以 帮助 读者 更 好 地 了 解 它 们 在 现实 生活 中 的 应 用 。 桃 李 
不 言 ， 下 目 成 蹊 ， 对 本 书 最 真实 的 评 从 ， 来 目 于 广大 的 读者 朋友 。 


本 书 翻译 的 过 程 并 不 短暂 ， 作 为 译 者 ， 我 们 尽 可 能 地 忠于 原著 。 对 于 本 书 中 大 量 的 专业 术语 尽量 遵循 已 有 的 标准 ， 并 参阅 了 
大 量 文献 ， 以 便于 读者 理解 。 


全 书 由 呆 萌 院 长 、 李 风 明 和 李 翰 阳 共同 完成 翻译 。 由 于 水 平 有 限 ， 书 中 出 现 的 错误 和 不 妥 之 处 ， 尽 请 读者 批评 指正 。 
译 者 
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OpenCV 是 开 友 计算 机 视 完 应 用 最 流行 的 库 之 一 。 它 使 我 们 能 够 实时 运行 许多 不 同 的 计算 机 视 完 算法 。 它 已 经 仓 在 了 很 多 
年 ， 并 成 为 这 个 领域 的 标准 库 。OpenCV 的 主要 优点 之 一 是 它 的 高 度 优 化 和 几乎 可 以 在 所 有 平台 上 兼容 。 


本 书 首先 介绍 了 计算 机 视 党 中 的 各 个 领域 和 在 C++ 中 相关 的 OpenCV 功 能 。 每 章 都 包含 真实 世界 的 例子 和 示例 代码 帮助 你 
轻松 地 擎 握 主 题 ， 并 了 解 它 们 在 现实 生活 中 的 应 用 。 总 之 ， 本 书 是 一 部 实用 指南 ， 会 教 你 如 何在 C++ 中 使 用 OpenCV， 并 建立 
各 种 应 用 程序 。 


本 书 的 主要 内 容 
第 1 章 洱 兰 各 种 操作 系统 的 安 半 步骤， 介绍 了 人 类 视 部 系统， 以 及 计算 机 视 竞 中 的 各 种 主要 内 容 。 
第 2 章 讨论 如 何在 OpenCV 中 读 / 写 图 像 和 视频 ， 并 且 介 绍 如 何 使 用 CMake 建 立 一 个 项 目 。 
第 3 章 介 绍 如 何 通过 创建 一 个 图 形 用 户 界 面 和 鼠标 事件 检测 器 来 实现 交互 陈 应 用 程序 。 
第 4 章 探 讨 直方 图 和 滤波 器 ， 也 演示 了 如 何 卡 通化 图 像 。 


第 5? 章 换 述 了 各 种 图 像 的 预 处 理 技术 ， 如 去 除 噪 声 、 靖 值 化 ， 以 及 轮廓 分 析 。 


第 6 章 处 理 对 象 识别 和 机 器 学 习 ， 并 学 习 如 何 使 用 支持 向 量 机 建立 一 个 对 象 分 类 系统 。 

第 7 章 讨 论 了 人 脸 检 测 和 Haar 级 联 ， 并 解释 如 何 使 用 这 些 方法 来 检测 人 脸 的 各 个 部 分 。 

第 8 章 探索 背景 差分 、 视 频 监 控 和 形态 学 图 像 操 作 ， 并 摘 述 了 它们 如 何 彼此 关联 。 

第 9 章 介绍 如 何 使 用 不 同 的 技术 跟踪 对 象 ， 如 基于 颜色 和 基于 特征 。 

第 10 草 介绍 光学 字符 识别 、 文 本 分 割 和 Tesseract OCR 引擎 。 

第 11 章 深入 研究 Tesseract OCR 引擎， 介绍 如 何 将 它 应 用 于 文本 检测 、 提 取 和 识别 。 
你 需要 准备 什么 

本 书 的 例子 会 用 到 以 下 技术 : 

. OpenCV 3.0 或 更 新 的 版 本 

* CMake 3.3.x 或 更 新 的 版 本 

“ ‘Tesseract 

. Leptonica (Tesseract 依 赖 包 ) 

-QT (可 选 ) 

enGl Ca 

相关 章节 提供 了 详细 的 安装 说 明 。 
本 书 的 读者 对 象 

本 书面 向 OpenCV 初 学 者 ， 以 及 希望 在 C++ 中 使 用 OpenCV 进 行 计算 机 视觉 应 用 开发 的 开发 人 员 。 懂 得 C++ 的 基础 知识 将 
有 助 于 理解 本 书 。 本 书 对 于 想 要 开始 学 习 计算 机 视觉 ， 并 了 解 基本 概念 的 人 来 说 同样 适用 。 他 们 应 该 知道 基本 的 数学 概念 ， 如 向 
量 、 答 阵 、 答 阵 乘 法 ， 等 等 ， 这 样 才能 最 大 限度 地 利用 本 书 。 在 阅读 本 书 的 过 程 中 ， 你 将 从 头 学 习 如 何 使 用 OpenCV 创 建 各 种 计 
算 机 视 况 应用。 


下 载 示例 代码 


可 登录 http://www.hzbook.com， 下 载 本 书 示 例 代 码 。 


第 1 章 ”OpenCV 的 探险 之 旅 


计算 机 视 营 应 用 是 很 有 趣 也 很 有 用 的 ， 但 是 它 的 基础 算法 是 计算 密集 型 的 。 伴 随 着 云 计 算 的 到 来 ， 我 们 拥有 越 来 越 多 处 理 这 


种 算法 能 力 。 在 实际 情况 下 ，OpenCV 库 可 以 更 有 效 地 运行 计算 机 视觉 算法 。 它 已 经 存在 很 多 年 了 ， 并 且 已 经 成 为 这 个 领域 的 一 
个 标准 库 了 。OpenCV 的 一 个 主要 优势 是 它 已 经 被 高 度 优化 ， 并 且 几 乎 支持 在 所 有 平台 上 使 用 。 这 本 书 即将 介绍 OpenCV 的 方 方 
面 面 包括 : 我 们 使 用 的 算法 ， 为 什么 使 用 OpenCV， 以 及 怎么 整合 OpenCV 到 各 个 领域 。 


本 草 下 面 将 要 介绍 如 何在 多 操作 系统 环境 下 安 沪 OpenCV。OpenCV 提 供 的 可 以 立即 使 用 的 功能 有 哪些 ， 以 及 可 以 使 用 内 置 
肖 数 做 到 的 事情 。 
在 本 章 结束 时 候 ， 你 可 以 回答 出 以 下 几 个 问题 : 


.人们 怎么 处 理 视 沉 数据， 以 及 怎么 理解 图 像 内 容 ? 


. OpenCV 可 以 做 些 什 么 ， 在 OpenCV 提 供 的 大 量 模块 中 哪些 可 以 用 来 完成 这 些 事情 ? 


如 何在 Windows、Linux 以 及 Mac OS X 上 安装 OpenCV? 


1.1 -理解 人 类 视 名 系统 


在 接触 OpenCV 功 能 之 前 ， 我 们 首先 需要 了 解 这 些 功 能 为 什么 要 创建 。 了 解 人 
这 样 你 才能 够 开 友 出 正确 的 算法 。 计 算 机 视 党 算法 的 目的 是 理解 图 像 和 视频 的 内 容 。 
么 ， 如 何 使 机 器 也 具有 同样 的 准确 性 呢 ? 


类 视觉 系统 的 工作 原理 是 很 重要 的 ， 因 为 只 有 
和 人 类 似乎 可 以 坚 不 费力 地 做 到 这 一 点 ! 那 


接 下 来 ， 看 看 下 面 的 图 : 


2 I 
一 A Sy Ta 二 
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a | | 
a | nb 
本 a 有 
i" a | 
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人 类 的 眼睛 会 同时 捕获 色彩 、 形 状 、 亮 度 等 信息 。 在 上 图 中 ， 人 有 眼 捕 获 了 这 两 个 主体 的 所 有 信息 ， 并 以 某 种 万 式 将 它们 存储 
起 来 。 一 旦 明日 了 人 类 的 视 冤 系统 是 如 何 工作 的 ,我们 殊 可 以 利用 这 个 来 实现 预期 结果 。 举 个 例子 ， 下 面 有 几 件 事情 需要 知道 : 


. 人 类 视觉 系统 对 低频 内 容 敏感 程度 高 于 高 频 内 容 。 低 频 内 容 是 指 像素 值 不 迅速 改变 的 平面 区 域 ， 高 频 内 容 是 指 像素 值 波动 
很 大 的 角落 和 边缘 地 区 。 你 可 能 已 经 注意 到 ， 如 果 在 平坦 的 表面 有 斑点 ， 就 可 以 很 容易 地 被 发 现 ， 但 是 如 果 在 质地 不 平 的 表面 就 


很 难 被 发 现 。 
- 人 眼 对 亮度 的 变化 敏感 程度 高 于 颜色 的 变化 。 
: 人 类 视觉 系统 对 运动 的 事物 很 敏感 。 如 果 有 东西 在 视野 中 移动 ， 即 使 人 们 没有 直 视 它 ， 也 能 很 快 地 意识 到 。 


" 人 们 往往 会 用 心 记 住 视野 内 突出 的 点 。 下 面 来 想象 一 下 ， 有 一 个 白色 的 采 子 ， 它 的 四 条 腿 是 黑色 的 ， 并 且 表 面 的 茶 个 角落 
上 有 一 个 红 点 。 当 看 着 这 张 桌 子 时 ， 你 会 立即 记 住 表 面 和 腿 有 对 立 的 颜色 ， 并 且 其 中 一 个 角落 有 一 个 红 点 。 人 类 大 脑 是 很 聪明 


的 ! 它 会 立即 做 这 些 ， 以 便 下 次 遇 到 的 时 候 能 够 对 其 进行 快速 识别 。 


为 了 解 人 类 视野 ， 接 下 来 看 看 人 类 看 不 同事 物 的 角度 : 


强 色 值 


了 0 © -b0) i 
5°-30° 
六 本 
5°-10° 
| / 
. 请 岳 绚 质 人 NN 络 盾 放 | Rs > 许 视 方向 


人 类 视 总 系统 实际 上 和 能够 做 更 多 的 事情 ， 但 这 样 足以 开始 下 面 的 内 容 了 。 你 可 以 通过 在 互联 网 上 阅读 人 类 视 总 系统 模型 来 深 
它 


1.2 人 类 是 怎么 理解 图 像 内 容 的 


环顾 四 周 ， 你 会 看 到 很 多 对 象 。 每 天 可 能 会 遇 到 各 种 各 样 的 对 象 ， 但 你 会 写 不 费劲 地 一 眼 识 别 出 它 们 。 事 实 上 ， 当 看 到 一 张 


椅子 ， 你 不 会 等 待 几 分 钟 才 意 识 到 那 是 张 椅子 。 对 ， 你 会 立马 意识 到 那 是 张 椅子 。 实 际 上 从 另 一 方面 襄 ， 计 算 机 很 难 做 好 这 件 


妃 
事 。 研 究 者 们 进行 了 多 年 研究 才 找 出 为 什么 计算 机 不 擅长 做 这 种 人 类 相当 擅长 的 事情 。 
为 了 得 到 这 个 问题 的 答案 ， 诈 移 要 理解 人 们 是 怎么 做 到 的 。 视 营 数 据 处 理 友 生 在 腹 侧 视 况 通路 。 这 个 腹 侧 视 部 通路 涉及 与 对 
象 识 别 相 关联 的 人 类 视 党 系统 回路 。 这 是 人 类 大 脑 中 一 块 区域 的 基本 层次 结构 ， 它 会 有 助 于 对 象 识别 。 人 们 可 以 之 无 费劲 地 认 知 
不 同事 物 ， 并 且 还 可 以 将 相似 的 对 象 归 类 成 组 。 之 所 以 可 以 做 到 这 个 ， 是 因为 人 类 开 友 对 相同 类 别 对 象 的 不 变性 排序 。 当 人 们 观 
察 某 个 对 象 时 ， 他 们 的 大 脑 提 取 了 一 绎 特征 点 ， 例 如 方向 、 尺 寸 、 观 点 ， 以 及 不 要 紧 的 光照 等 因素 。 


比 正 常 大 一 售 尺寸 并 且 倾 斜 45 度 角 放 着 的 椅子 仍然 是 一 张 椅子 。 因 为 处 理 方式 的 原因 ， 我 们 可 以 很 轻松 地 识别 出 它 。 机 器 
反而 不 能 轻松 处 理 好 这 样 的 情况 。 人 们 趋向 于 通过 形状 和 一 些 重要 的 特征 记忆 一 个 对 象 。 不 管 这 个 对 象 是 如 何 摆 放 的 ， 人 们 仍然 
可 以 认 出 它 。 在 人 类 视觉 系统 中 ， 大 脑 创 建 了 可 以 帮助 我 们 的 稳健 有 关 位 置 、 缩 族 和 角度 方面 的 不 变性 层次 结构 。 


如 果 你 对 人 类 视 完 系统 有 深入 研究 ， 束 会 友 现 人 们 有 很 多 细胞 在 视 洁 皮层 。 这 些 细胞 可 以 识别 出 曲线 和 直线 等 形状 。 当 深入 
腹 侧 通路 时 ， 我 们 会 看 到 更 复杂 的 细胞 。 这 些 细胞 被 训练 去 反应 更 为 复杂 的 事物 ， 例 如 树 和 门 等 。 人 类 腹面 通路 中 的 神经 元 会 在 
感 周 域 上 显示 尺寸 增长 。 这 也 与 加 上 它们 首选 的 刺激 的 复杂 性 地 增加 的 事实 相关 联 。 


为 什么 机 器 很 难 理解 图 像 内 容 


现在 ,我 们 理解 了 视 哆 数据 是 怎么 进入 人 类 视 完 系统 ， 以 及 人 类 视 帝 系统 怎么 处 理 它 。 目 前 的 问题 是 还 没 理解 透彻 人 类 大 脑 
如 何 识别 和 组 织 这 些 视 完 数据 。 人 们 仅 从 图 像 中 提取 出 一 些 特征 ， 并 且 要 求 计算 机 通过 机 器 学 习 算 法 学 习 人 类 。 仍 有 很 多 变化 例 
如 形状 、 尺 七、 观点、 角度、 光照 、 逐 挡 等 。 例 如 ， 在 机 器 眼 里 ， 同 样 的 椅子 从 侧面 看 起 来 不 一 样 。 不 管 它 如 何 呈 现 ， 人 们 可 以 
很 容易 地 识别 出 它 是 一 张 椅子 。 但 是 应 该 如 何 跟 计算 机 解释 这 个 呢 ? 


一 种 处 理 方法 是 将 一 个 对 象 不 同 的 变化 存储 起 来 ， 包 括 大 小 、 角 度 、 光 照 等 。 但 是 这 样 处 理 过 于 麻烦 又 太 耗 时 。 而 且 事 实 
上 ,， 它 不 能 将 能 遇 到 的 每 一 种 变化 数据 收集 起 来 。 为 了 识别 出 这 些 对 象 ， 计 算 机 会 消耗 大 量 内 存 和 时 间 去 构建 模型 。 即 使 能 满足 
所 有 这 些 ， 当 存在 特殊 遮挡 的 ， 计 算 机 仍 不 能 够 识别 出 它 ， 因 为 计算 机 会 认为 它 是 一 个 新 事物 。 所 以 ， 在 构建 一 个 计算 机 视 完 库 
时 ,我 们 需要 构建 基本 功能 块 ， 那 样 束 可 以 在 各 种 各 样 的 情况 下 结合 成 复杂 的 算法 。OpenCV 提 供 了 很 多 功能 ， 并 且 这 些 功能 得 
到 了 很 好 的 优化 。 所 以 ,一 旦 理解 OpenCV 提 供 的 立即 使 用 万 法 ， 我 们 束 可 以 高 效 地 使 用 它 创 建 有 趣 的 应 用 。OpenCV 的 方法 将 
在 下 一 章 具体 介绍 。 


1.3 OpenCV 可 以 做 什么 


使 用 OpenCV， 你 可 以 做 相当 多 能 够 想象 出 的 计算 机 视 党 任务 。 现 实生 活 中 的 问题 需要 使 用 很 多 立 数 块 来 完成 预期 结果 。 所 
以 ， 还 需要 理解 哪些 模块 和 遂 数 能 达到 预期 的 效果 。 下 面 开始 介绍 OpenCV 提 供 的 可 以 立即 使 用 的 方法 。 


1.3.1 内置 数据 结构 和 输入 /输出 


OpenCyV 中 最 利好 的 消息 是 它 提 供 了 大 量 内 置 基 元 去 处 理 涉 及 图 像 处 理 和 计算 机 视 名 的 操作 。 如 果 从 零 开 始 写 一 些 乐 西 ， 你 
需要 定义 一 些 对 象 包括 图 像 、 点 、 矩 形 等 。 这 些 几 乎 是 任何 计算 机 视觉 算法 的 基础 。OpenCV 提 供 了 这 些 可 以 立即 使 用 的 基本 框 
架 ， 并 且 在 核心 模块 中 包含 了 它们 。 另 一 个 优势 是 这 些 基本 框 染 已 经 在 运行 速度 和 内 存 使 用 上 进行 了 优化 ， 所 以 不 需要 担心 实现 


细 证 。 


imgcodecs 模 块 处 理 图 像 文 件 的 读 写 。 当 处 理 写 入 图 像 和 创建 图 像 文 件 时 ， 你 可 以 通过 简单 的 命令 将 图 像 保 存 为 JPG 或 者 
PNG 格 式 的 文件 。 当 使 用 摄像 机 的 时 候 ， 需 要 处 理 大 量 的 视频 文件 。videoio 模 块 可 以 处 理 视 频 文件 所 有 读 写 相关 的 操作 。 你 可 
以 很 容易 地 从 摄像 头 中 获取 视频 ， 或 者 读 取 不 同 种 格式 的 视频 文件 。 甚 至 可 以 通过 设置 每 秒 帧 播放 速度 、 帧 的 大 小 等 属性 将 一 大 
扒 的 帧 保 仓 为 视频 文件 。 


1.3.2 ”图像 处 理 万 法 


当 编 写 计 算 机 视觉 算法 时 ， 会 有 一 堆 能 反复 使 用 的 基本 图 像 处 理 操 作 。imgproc 模 块 展示 了 大 部 分 函数 。 你 可 以 处 理 例 如 图 
像 滤波 ， 形 态 学 操作 ， 几 何 变换 ， 色 彩 变 换 ， 绘 制图 像 ， 结 构 分 析 ， 直 方 图 ， 形 状 分 析 ， 运 动 分 析 ， 特 征 检测 等 事情 。 接 下 来 思 
考 下 面 的 图 : 


右 图 是 左 图 的 一 个 旋转 的 版 本 ， 可 以 通过 OpenCV 中 的 一 行 代码 做 到 这 种 转换 。OpenCV 有 个 叫 作 ximgproc 的 模块 ， 它 包 
含 了 高 级 图 像 处 理 算法 ， 例 如 基于 结构 森林 的 边 绿 检测 ， 域 变换 滤波 ， 目 适应 流 形 滤波 等 。 


1.3.3 ”构建 GUI 


OpenCV 提 供 了 一 个 叫 作 highgui 的 模块 ， 它 是 用 来 处 理 高 级 用 户 交 互 操 作 的 。 在 处 理 下 一 步 之 前 ， 讨 论处 理 的 问题 和 想 要 
今 坦 图 像 的 样子 。 这 个 模块 包括 了 创建 用 于 展示 图 像 或 者 视频 的 窗口 等 一 系列 辫 数 。 它 还 包括 等 待 功 能 ， 那 是 等 到 用 户 触 友 键 盘 
上 按键 才能 进行 下 一 步 。 还 有 一 个 函数 可 以 检测 鼠标 移动 ， 它 对 开 友 交互 应 用 很 有 帮助 。 使 用 这 个 功能 残 可 以 企 输入 窗口 中 绘画 
出 长 万 形 ， 处 理 被 选择 的 区 域 。 


考虑 如 下 图 : 


从 图 中 可 以 看 出 在 图 像 上 绘制 了 一 个 长 方形 ， 并 且 提 供 了 一 个 底 卢 影 响 那个 区 域 。 一 旦 有 了 这 个 长 方形 的 坐标 ， 我 们 融 可 以 
仅 处 理 这 块 区 城 。 


视频 分 析 包 括 了 如 下 任务 ， 例 如 分 析 视 频 中 的 连续 帧 之 间 的 运动 ， 跟 中 视频 中 的 不 同 对 象 ， 创 建 视频 监控 模型 等 。OpenCV 
提供 了 video 模 型 ， 它 可 以 处 理 上 面 种 种 问题 。 还 有 个 videostab 模 型 用 于 视频 去 抖动 。 视 频 去 抖动 是 摄像 机 中 的 一 个 重要 组 成 


三 维 重 建 是 计算 机 视觉 中 的 一 个 重要 谍 题 。 通 过 使 用 相关 算法 ， 融 可 以 将 一 系列 的 二 维 图 像 重建 出 三 维 场景 。OpenCV 提 供 
了 可 以 皮 现 二 维 图 像 中 大 量 事物 的 相关 联 性 来 计算 它们 三 维 位 置 的 算法 。calib3d 模 块 可 以 处 理 所 有 这 些 。 这 个 模块 同样 处 理 摄 
像 机 标定 ， 它 是 一 个 相机 的 必要 估计 参数 。 这 些 参数 是 基本 的 内 在 参数 ， 这 些 内 在 参数 主要 是 将 相机 拍摄 到 的 捕捉 幕 转 化 为 图 
像 。 需 要 知道 这 些 参数 以 便 设计 算法 ， 否 则 会 得 到 意 想 不 到 的 结果 。 接 下 来 看 下 面 的 图 : 


上 图 从 不 同 角 度 捕 捉 相 同 的 对 销 。 接 下 来 的 任务 束 是 通过 2D 图 像 重 建 原始 对 每 。 


1.3.6 ”特征 提取 


正如 之 前 讨论 的 ， 人 类 视 帝 系统 趋同 于 从 一 个 给 予 场景 中 提取 特征 点 ， 这 样 可 以 方便 以 后 检索 。 为 了 模仿 这 点 ， 人 们 开始 设 
计 很 多 特征 提取 器 ， 目 的 是 为 了 从 已 知 图 像 上 提取 这 些 特征 点 。 一 些 流行 的 算法 包括 SIFT (尺度 不 变 特征 变换 ) 、SURF (加 速 
鲁 棒 特征 ) 和 FAST (加 速 分 段 测 试 特征 ) 等 。features2d 模 块 提供 了 检测 和 提取 这 些 特征 的 函数 。xfeatures2d 模 块 提供 了 一 些 
更 多 的 特征 提取 器 ， 其 中 一 些 还 在 实验 中 。 如 果 想 挑战 ， 你 可 以 试 试 这 些 试验 中 的 特征 提取 器 。 其 中 一 个 叫 作 bioinspired 的 模 
块 提供 了 计算 机 视 完 仿生 模型 方面 的 算法 。 


1.3.7 目标 检测 


目标 检测 是 指 在 给 定 图 像 中 检测 目标 的 位 置 。 这 一 过 程 不 关心 目标 的 类 型 。 如 果 设 计 一 个 椅子 检测 器 ， 它 只 会 告诉 你 在 给 定 
图 像 中 椅子 的 位 置 ， 而 不 会 告知 是 张 红 色 高 背 椅 子 还 是 低 背 监 色 椅子 。 检 测 目标 的 位 置 是 许多 计算 机 视 党 系统 中 非常 关键 的 一 


步 。 考 虑 下 图 : 


La mL 电 


如 果 在 这 张 图 像 上 运行 椅子 检测 器 ， 它 会 在 所 有 的 椅子 周围 加 上 绿 框 。 它 不 会 告知 椅子 的 种 类 ! 目标 检测 过 去 常常 是 计算 密 
集 型 的 任务 ， 因 为 在 不 同 尺度 下 执行 检测 需要 大 量 的 计算 。 为 了 解决 这 个 问题 ，Paul Viola 和 Michael Jones 在 他 们 的 2001 年 的 


开创 性 论文 中 友 明 了 伟大 的 算法 。 你 可 以 在 ht Ww.cs.cmu.edu/~efros/courses/LBMVO7/Papers/viola-cvpr-01.pdf 上 


阅读 到 这 篇 论文 。 他 们 提供 快速 的 方法 来 设计 针对 任何 对 象 的 目标 检 仿 测 器 。 OpenCV 中 的 objdetectfxobjdetect 两 个 模 抉 已 提 
供 了 设计 目标 检测 器 的 框架 。 你 可 以 使 用 它们 开发 任意 物品 的 检测 器 ， 如 墨镜 、 靳 子 等 。 


计算 机 视 完 使 用 各 种 机 器 学 习 算 法 来 实现 不 同 的 事情 。OpenCV 提 供 了 ml 模块 ， 它 已 经 捆绑 了 很 多 机 器 学 习 算 法 。 这 些 算 


法 包括 贝 叶 斯 分 类 器 (Bayes Classifier) 、K 邻 域 (K-Nearest Neighbors) 、 支 持 向 量 机 (Support Vector Machine) 、 决 
策 树 (Decision Trees) 、 神 经 元 网 络 (Neural Networks) ， 等 等 。 还 有 一 个 叫 作 flann 的 模块 ， 它 包含 大 数据 集 的 快速 最 近 


邻 搜索 算法 。 机 器 学 习 算 法 广泛 用 于 目标 识别 、 图 像 分 类 、 人 脸 检 测 、 视 竞 搜索 等 系统 构建 。 


计算 摄影 是 指使 用 先进 的 图 像 处 理 技 术 来 优化 相机 提 报 的 图 像 。 计 算 摄影 使 用 软件 来 处 理 可 视 化 数据 ， 而 不 是 专注 于 光学 处 
理 和 图 像 捕 获 万 法 。 一 些 应 用 程序 包括 高 动态 汽 围 成 像 、 全 景 图 像 、 图 像 光照 、 光 场 相机 ， 等 等 


接 下 来 ， 看 以 下 图 像 


这 是 动态 学 围 图 像 的 例子 ， 如 果 使 用 常规 图 像 捕获 技术 束 不 可 能 得 到 它 。 为 此 ， 必 须 在 多 重 曝光 下 捕获 相同 的 场景 ， 彼 此 注 
册 这 些 图 像 ， 然 后 很 好 地 将 它们 混合 ， 并 创建 这 幅 图 。photo 和 xphoto 模 块 包含 各 种 有 关 计 算 摄影 的 算法 。stitching 模 块 提 供 
创建 全 景 图 像 的 算法 。 


~ 前 面 的 图 像 可 以 在 1 ttps:/ /pixabay.com/en/hdr-high-dynamic-range-landscape-806260 上 找到 。 


形状 的 概念 是 计算 机 视 党 的 关键 。 可 以 通过 认识 到 各 种 图 像 不 同 的 形状 来 分 析 可 钢化 数据 。 实 际 上 ， 这 是 许多 算法 的 重要 一 
步 。 比 如 ， 试 图 识别 图 像 中 的 特定 标志 。 现 在 ， 你 应 该 清楚 它 可 以 以 各 种 形状 、 方 向 、 大 小 展现 出 来 。 一 个 好 的 起 点 是 量化 对 象 
形状 特征 。shape 模 块 提供 提取 不 同 的 形状 ， 衡 量 它 们 间 的 相似 点 ， 起 点 变换 目标 形状 等 算法 。 


光 流 算法 用 于 跟 路 在 视频 的 连续 帧 中 的 特征 。 比 如 ， 你 想 要 跟 踊 视 频 中 的 特定 对 象 。 在 每 个 帧 上 运行 特征 提取 将 会 消耗 大 量 
计算 资源， 因此 ， 这 一 处 理会 很 慢 。 所 以 ， 仅 需要 从 当前 帧 中 提取 特征 ， 然 后 在 连续 帧 上 跟 踊 这 些 特性 。 光 流 算 法 被 广泛 使 用 在 
基于 视频 的 计算 机 视 嘻 应 用 。optflow 模 块 包含 执行 光 流 所 需 的 大 量 算法 。tracking 模 块 包含 了 跟踪 特征 的 很 多 算法 。 


人 脸 识别 是 指 识别 给 定 的 图 像 中 的 人 。 这 和 识别 给 定 的 图 像 中 人 脸 的 位 置 的 人 脸 检 测 不 同 。 所 以 ， 如 果 你 想 要 建立 一 种 实用 
的 生物 特征 识别 系统 可 以 识别 镜头 前 的 人 ， 你 首先 需要 进行 人 脸 检 测 来 确定 脸 的 位 置 ， 然 后 ， 进 行人 脸 识 别 以 辨认 出 这 是 谁 的 
脸 。face 模 块 调用 处 理 人 上 脸 识别 。 


如 前 文 所 述 ， 计 算 机 视 党 试图 将 基于 和 人 类 是 如 何 感 知 可 视 化 数据 的 算法 模型 化 。 因 此 ， 它 有 助 于 碍 找 特征 区 域 和 图 像 中 的 目 
标 。 它 可 以 在 如 目标 识别 、 目 标 检测 和 跟 路 等 方面 帮助 不 同 的 应 用 程序 。saliency 模 块 为 此 而 设计 ， 它 提供 了 能 够 检测 静态 图 像 
和 视频 中 特征 区 域 的 算法 。 


1.3.13 ”曲面 匹配 


我 们 越 来 越 多 地 需要 与 捕获 周围 对 象 的 三 维 结构 的 设备 进行 交互 。 这 些 设备 基本 上 捕获 了 常规 二 维 彩 色 图 像 的 深度 信息 。 
此 ， 构 建 理解 和 处 理 三 维 目标 的 算法 是 至 天 重要 的 。Kinect 是 设备 捕获 可 视 化 数据 深度 信息 的 好 例子 。 手 头 的 任务 是 通过 三 维 目 
标 与 在 我 们 的 数据 库 模 型 的 匹配 来 识别 输入 这 个 目标 。 如 果 有 一 个 系统 可 以 识别 和 定位 目标 ， 那 么 它 可 以 应 用 于 许多 不 同 的 应 用 
程序 。surface_ matching 模块 包含 三 维 对 象 识 别 和 使 用 三 维特 征 进 行 位 置 估计 的 算法 。 


1.3.14 文本 检测 与 识别 


给 定 场景 中 的 文本 签 定 和 内 容 识别 变 得 越 来 越 重要 。 一 些 应 用 程序 包括 铭牌 识别 、 目 动 具 驶 汽车 识别 道路 标志 ， 图 书 扫 捅 转 
化 数字 内 容 等 。text 模 块 包 合 处 理 文本 检测 与 识别 的 各 种 算法 。 


1.4 安 和 OpenCV 
接 下 来 介绍 下 如 何在 多 系统 中 设置 和 运行 OpenCV。 


1.4.1 Windows 
为 万 便 起 见 ， 接 下 来 使 用 预 生 成 的 库 来 安 丢 OpenCV。 先 去 http://opencv.org 网 站 下 载 最 新 版 本 的 Windows。 当 前 版 本 是 
3.0.0， 可 以 去 OpenCV 首 页 获得 最 新 的 链接 来 下 载 软件 包 。 


在 继续 之 前 ， 需 要 确保 你 有 管理 员 权 限 。 下 载 的 文件 将 是 可 执行 的 文件 ， 所 以 只 要 双击 它 即 可 开始 安 狼 过 程 。 安 和 半 内 容 将 会 
扩展 到 一 个 文件 夹 中 。 你 能 够 选择 安 浴 路径 和 通过 检查 文件 来 检查 安 沪 。 


一 旦 完成 上 一 步 ， 接 下 来 需要 设置 OpenCV 环 境 变 量 并 将 其 添加 到 系统 路 径 以 完成 安装 。 下 面 将 设置 一 个 可 创建 OpenCV 库 
的 生成 目录 的 环境 变量 。 我 们 将 会 在 项 目 中 用 到 它 。 打 开 终 端 并 输入 以 下 命令 : 


C:\> Setx -m OPENCV DIR D:\OpenCV\Build\x64\vc11 
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一 假设 已 有 安装 了 64 位 的 Visual Studio 2012。 如 果 安 装 的 是 Visual Studio 2010， 仅 需要 将 前 面 的 命令 vc11 替 换 为 vc10。 前 面 
虽 定 的 路 径 是 OpenCV 二 进 制 文件 的 存放 地 ， 而 且 lib 和 bin 文 件 夹 也 在 里 面 。 如 果 使 用 的 是 Visual Studio 2015， 你 应 该 能 够 从 头 编 
侠 OpenCyV 。 


接 下 来 ， 将 路 径 添加 到 系统 的 bin 文 件 夹 中 。 需 要 这 样 做 的 原因 是 因为 将 以 动态 链接 库 (DLL) 形式 使 用 OpenCV 库 。 基 本 
上 ， 所 有 OpenCV 算 法 都 存储 在 这 里 。 我 们 的 操作 系统 在 运行 时 才 会 加 载 它 们 。 为 了 做 到 这 一 点 ， 我 们 的 操作 系统 需要 知道 它们 
所 在 的 位 置 。 系 统 环 境 变量 将 包含 在 哪 能 找到 所 有 Dll 文件 的 文件 夹 列表 。 所 以 ， 目 然 地 ,我 们 需要 将 OpenCV 库 的 路 径 添加 到 


这 个 列表 中 。 我 们 为 什么 要 做 这 一 切 呢 ? 另 一 种 选择 是 将 所 需 的 DLL 复制 到 与 应 用 程序 的 可 执行 文件 (.exe 文 件 ) 相同 的 文件 夹 
中 。 这 是 不 必要 的 开销 ， 尤 其 是 当 我 们 正在 进行 计 多 不 同 的 项 目 。 


我 们 需要 编辑 环境 变量 ， 以 便 将 它 添 加 到 这 个 文件 夹 。 你 可 以 使 用 如 Path Editor 等 软件 做 到 这 一 点 。 你 可 以 
从 https:/patheditor2.codeplex.com 下 载 它 。 一 有 旦 你 安 闭 它 ， 局 动 它 ， 并 添加 以 下 新 条 目 (你 可 以 通过 右键 单 击 来 插入 一 条 新 
的 项 目的 路 径 ) : 


%OPENCV DIR%\bin 


主 前 走 ， 将 它 保存 到 注册 表 。 融 完成 了 ! 


一 


1.4.2 Mac OSX 


在 本 节 中 ， 即 将 看 到 如 何在 Mac OS X 上 安 六 OpenCV。 预 编译 文件 不 可 用 于 Mac OS X， 所 以 我 们 需要 从 头 编译 
OpenCV。 人 在 我 们 开始 之 前 ， 需 要 安装 CMake。 如 果 你 没有 安 六 CMake， 你 可 以 从 https://cmake.org/files/v3.3/cmake- 
3.3.2-Darwin-x86_64.dmg 下 载 。 它 是 Dmg 文 件 ! 所 以 ， 一 旦 你 下 载 它 ， 只 要 运行 安 法 程序 即 可 完成 安 妆 。 


从 opencv.org 网 站 下 载 最 新 版 本 的 OpenCV。 当 前 版 本 是 3.0.0， 你 可 以 
从 https://github.com/ltseez/opencv/archive/3.0.0.zip 下 载 它 。 


解压 缩 到 你 所 选择 的 文件 夹 。OpenCV 3.0.0 还 有 一 个 叫 作 opencv_contrib 的 新 包 ， 其 中 包含 尚未 稳定 的 用 户 贡 献 。 要 时 刻 
牢记 的 一 件 事 是 在 opencv_contrib 中 的 一 些 算法 不 能 免费 供 商业 使 用 。 此 外 ， 安 妆 这 个 软件 包 是 可 选 的 。 如 果 你 不 安 委 
opencv_contrib，OpenCV 工 作 良 好 。 如 果 我 们 正在 安装 OpenCV， 正 好 可 以 安装 这 个 包 ， 这 样 ， 你 稍 后 可 以 尝试 使 用 它 (而 
不 是 再 一 次 经 历 整个 安 和 过 程 ) 。 这 个 包 是 一 个 学 习 和 把 玩 新 算法 的 绝 佳 方式 。 你 可 以 
从 https://github.com/ltseez/opencv contrib/archive/3.0.0.zip 下 载 它 。 


将 ZIP 文 件 的 内 容 解 压缩 到 你 所 选择 的 文件 夹 。 为 万 便 起 见 ， 如 前 所 述 ， 将 其 解压 缩 至 
opencv_contrib-3.0.0 在 相同 的 主 文件 夹 中 。 


I 同一 文件 夹 中 ，opencv-3.0.0 和 


现在 我 们 已 经 准备 好 构建 OpenCV。 打 开 你 的 终 并 并 跳 转 到 解压 缩 的 OpenCV 3.0.0 的 文件 夹 。 在 蔡 换 命令 中 的 正确 路 径 后 


运行 以 下 命令 : 


cd /full/path/to/opencv-3.0.0/ 
mkdir build 
cd build 


Vr UV UV 


$ cmake -DD CMAKE BUILD TYPE=RELEASE -DD CMAKE INSTALL PREFIX=/full/path/ 
to/opencv-3.0.0/build -D INSTALL C EXAMPLES=ON -D BUILD EXAMPLES=ON -D 
OPENCV EXTRA MODULES PATH=/full/path/to/opencv contrib-3.0.0/modules ../ 


需要 时 间 来 安装 OpenCV 3.0.0。 跳 转 到 /full/path/to/opencv-3.0.0/build 目 录 中 ， 并 且 在 终端 上 运行 以 下 命令 : 


$ make -Jj4 


S make install 


在 前 面 的 命令 中 ，-j4 标 记 表 示 它 使 用 四 个 内 核 安 滚 它 。 这 种 方式 是 更 快 ! 现在 ,让 我 们 设置 库 路 径 。 在 你 的 终端 运行 
vi~/.profile 命 令 ， 打 开 你 的 ~/.profile 文 件 并 添加 以 下 代码 : 


export DYLD LIBRARY PATH=/full/path/to/opencv-3.0.0/build/lib:s$DYLD 
LIBRARY PATH 


我 们 需要 将 pkg-config 中 的 opencv.pc 文 件 复制 到 /usr/local/lib/pkgconfig， 并 将 其 命名 为 opencv3.pc。 如 果 存 在 
OpenCV 2.4.x 安 装 程 序 ， 也 不 会 造成 冲突 。 让 我 们 继续 : 


$ cp /full/path/to/opencv-3.0.0/build/lib/pkgconfig/opencv.pc /usr/local/ 
lib/pkgconfig/opencv3 .pc 


同时 ， 我 们 需要 更 新 PKG_CONFIG_PATH 变 量 。 打 开 你 的 ~/.profile 文 件 ， 并 添加 以 下 行 : 


export PKG CONFIG PATH=/usr/local/lib/pkgconfig/:S$PKG CONFIG PATH 


使 用 以 下 命令 重新 加 载 你 的 ~/.profile 文 件 : 


$ source ~/.profile 
这 样 束 完成 了 ! 接 下 来 看 看 它 是 否 正 常 工作 : 


$ cd /full/path/to/opencv-3.0.0/samples/cpp 


$ g++ -ggdb 'pkg-config --cflags --libs opencv3' opencv version.cpp -o / 
tmp/opencv version && /tmp/opencv version 


如 果 看 到 Welcome to OpenCV 3.0.0 显 示 在 你 的 终端 上 ， 说 明 OpenCV 正 党 工作 。 接 下 来 将 使 用 CMake 生 成 涵盖 整 本 书 的 
OpenCV 项 目 。 我 们 将 在 下 一 章 更 详细 地 介绍 。 


1.4.3 Linux 


接 下 来 看 看 如 何在 Ubuntu 上 安 半 OpenCV。 人 在 开始 之 前 ， 需 要 安 半 一 些 依 和 存 天 系 。 通 过 在 终端 上 运行 以 下 命令 使 用 软件 包 
管理 器 来 安 闭 它们: 

$ sudo apt-get -y install libopencv-dev build-essential cmake 

libdcl1394-22 libdcl394-22-dev libjpeg-dev libpngl2-dev libtiff4-dev 

libjasper-dev libavcodec-dev libavformat-dev libswscale-dev libxine-dev 

libgstreamer0.1l0-dev libgstreamer-plugins-base0.1l0-dev libv4l-dev libtbb- 


dev libqt4-dev libmp3lame-dev libopencore-amrnb-dev libopencore-amrwb-dev 
libtheora-dev libvorbis-dev libxvidcore-dev x264 v41l1-utils 


现在 ， 已 安 委 依赖 关系 。 接 下 来 ， 下 载 、 构 建 并 安 委 OpenCV: 


$ wget "https://github .corm/ILtseez/opencv/archive/3.0.0.zip" -O opencv.zZip 


$ wget "https://github.com/Itseez/opencv contrib/archive/3.0.0.zip" -0O 
opencv contrib.zip 


$ unzip opencv.zip -da 


unzip opencv contrib.zip -dQ . 


mkdir build 
Ga Dua 


$ cmake -DD CMAKE BUILD TYPE=RELEASE -DD CMAKE INSTALL PREFIX=/full/path/ 
to/opencv- 3.0.0/build -D INSTALL C EXAMPLES=ON -D BUILD EXAMPLES=ON -D 
OPENCV EXTRA MODULES PATH=/full/path/to/opencv contrib-3.0.0/modules ../ 


9 
$ cd opencv-3.0.0 
$ 
$ 


$ make -jj4 


S sudo make install 


将 pkg-config 文 件 中 的 opencv.pc 复 制 到 /usr/local/lib/pkgconfig， 并 命名 为 opencv3.pc: 


$ cp /full/path/to/opencv-3.0.0/build/lib/pkgconfig/opencv.pc /usr/local/ 
lib/pkgconfig/opencv3 .pc 


这 样 束 完成 了 ! 现在 就 可 以 通过 命令 行 编译 我 们 的 OpenCV 程 序 。 此 外 ， 如 果 已 经 存 企 OQpenCV 2.4.x 安 妆 程 序 ， 并 不 会 造 
成 冲突 。 接 下 来 检查 安 六 程序 是 人 否 工 作 正 常 : 


$ cd /full/path/to/opencv-3.0.0/samples/cpp 


$ g++ -ggdb 'pkg-config --cflags --libs opencv3' opencv version.cpp -o / 
tmp/opencv version && /tmp/opencv version 


如 果 看 到 Welcome to OpenCV 3.0.0 显 示 在 你 的 终端 上 ， 说 明 OpenCV 正 党 工作 。 在 下 面 的 章节 中 ， 你 将 学 习 如 何 使 用 
CMake 来 生成 OpenCV 项 目 。 


1.5 忆 结 


在 本 草 中 ， 我 们 学 会 了 如 何在 各 种 操作 系统 中 安 六 OpenCV。 讨 论 了 人 类 的 视 迪 系统 和 人 类 如 何 处 理 可 视 化 数据 。 还 知道 为 
什么 计算 机 做 同样 事情 比较 困难 ， 以 及 设计 一 个 计算 机 视 党 库 时 需要 考虑 什么 。 接 下 来 学 到 了 OpenCV 可 以 做 什么 和 可 以 被 用 来 
做 这 些 任务 的 各 种 模块 。 


在 下 一 草 中 ， 即 将 讨论 如 何 处 理 图 像 和 如 何 使 用 各 种 模块 处 理 它们 。 还 将 学 习 如 何 为 OpenCV 应 用 程序 构建 一 个 项 目 。 


第 2 章 ”OpenCV 基 础 知识 介绍 


在 上 一 章 中 ， 我 们 学 习 了 如 何在 各 种 操作 系统 环境 下 安装 OpenCV， 接 下 来 将 介绍 OpenCV 开 发 的 基础 知识 。 
本 章 中 ， 你 将 学 到 如 何 使 用 CMake 创 建 项 目 。 


同时 本 章 也 会 介绍 项 目 工程 中 所 需要 的 图 像 基 本 数据 结构 、 和 矩阵 ， 以 及 项 目 中 常见 的 其 他 结构 。 


最 后 还 会 学 习 如 何 通 过 XML/YAML 持 久 化 的 OpenCV 函 数 在 文件 中 存储 变量 和 数据 。 
在 本 章 ， 将 学 习 如 下 主题 : 

: 使 用 CMake 配 置 项 目 工程 

. 从 磁盘 上 读 写 文件 

通过 摄像 机 读 取 视 频数 据 

` 主要 图 像 结 构 ( 短 阵 ) 

“ 其 他 重要 和 基本 结构 (向 量 、 标 量 等 ) 

基础 矩阵 操作 介绍 


. OpenCV API 中 XMLVYAML 持久 化 的 文件 存储 操作 


2.1 CMake 基 本 配置 文件 


我 们 需要 通过 使 用 CMake 来 配置 和 检查 项 目 工程 所 有 依赖 关系 ， 但 是 这 不 是 强制 性 的 ， 还 可 以 通过 使 用 例如 Makefiles 或 者 
Visual Studio 等 工具 或 1DE 来 配置 项 目 工程 。 但 是 ，CMake 是 配置 多 平台 C++ 项 目 工程 最 方便 的 方式 。 


CMake 使 用 一 个 叫 作 CMakeLists.txt 的 配置 文件 ， 在 其 中 编译 和 依赖 天 系 已 经 定义 好 了 。 对 于 一 个 基本 程序 来 说 ， 基 于 源 
代码 文件 的 执行 编译 ， 一 个 两 行 的 CMakeLists.txt 文 件 是 必要 的 。 文 件 内 容 大 体 如 下 : 


cmake minimum required (VERSION 2.6) 
project (CMakeTest) 
add executable(${PROJECT NAME} main.cpp) 


第 一 行 定义 了 需要 的 CMake 文 件 的 最 低 版 本 。 这 行 在 CMakeList.txt 文 件 中 是 强制 性 要 写 的 ， 并 且 人 允许 从 在 第 二 行 定 义 的 一 
个 已 知 版 本 使 用 cmake 功 能 。 它 定义 了 项 目 工程 名 称 。 这 个 名 称 被 保存 在 PROJECT_NAME 变 量 中 。 


最 后 一 行 企 main.cpp 文 件 中 创建 了 一 个 执行 命令 (add_executable () ) ， 给 它 和 项 目 一 样 的 名 称 
($ftPROJECT_NAME}) ， 并 且 将 源 代码 编译 进 CMakeTest 可 执行 文件 。 在 这 个 可 执行 文件 中 设置 了 和 项 目 一 样 的 名 称 。 


4 表达 式 允 许 进入 环境 ， 并 定义 任意 变量 。 然 后 ， 可 以 使 用 ${PROJECT_NAME} 变 量 作为 一 个 可 执行 输出 名 。 


2.2 ”创建 库 


CMake 人 允许 创建 那 尝 必 须 匀 OpenCV 编 译 系 统 使 用 的 库 。 在 软件 开 友 过 程 中 ， 在 多 个 应 用 中 分 解 共享 代码 是 剃 见 并 且 有 用 
的 实践 。 在 大 型 应 用 或 者 在 多 个 应 用 中 共享 通用 代码 ， 这 个 实践 是 非常 有 用 的 。 


在 这 个 例子 中 ， 并 没有 创建 一 个 二 进 制 执行 文件 ， 取 而 代 之 的 是 ， 创 建 包含 了 所 有 六 数 、 类 等 可 编译 文件 ， 来 用 于 开 友 。 我 


们 可 以 共享 这 个 库 给 其 他 应 用 而 不 用 开放 源 代码 。 
CMake 中 的 add library 函 数 可 以 实现 这 个 目的 : 


# 创建 Hello 库 
add library (Hello hello.cpp hello.h) 


# 使 用 这 个 新 库 创 建 应 用 


add executable (executable main .cpp) 


# 使 用 新 库 链 接 可 执行 文件 


target link libraries{( executable Hello ) 


上 述 代码 中 的 注释 用 # 开 头 ， 注 释 会 饿 CMake 和 忽略 。 


add library (Hello hello.cpp hello.h) 命令 定义 了 新 库 Hello， 其 中 包含 了 如 下 源 代码 hello.cpp，hello.h。 添 加 头 文件 是 
允许 IDE (例如 Visual Studio) 去 链接 头 文件 。 


依据 操作 系统 是 动态 库 还 是 静态 库 ， 这 行将 生成 一 个 共享 文件 (OS X 和 Unix 中 是 .so，Windows 中 是 .dll) 或 者 一 个 静态 库 
(OS X 和 Unix 中 是 .a，Windows 中 是 .dll) 。 


target link_libraries (executable Hello) 是 一 个 可 以 将 可 执行 文件 链接 到 需要 的 库 的 功能 。 在 上 述 例子 中 ， 它 是 Hello 
库 。 


2.3 ”管理 依赖 关系 


CMake 有 搜索 依赖 天 系 和 外 部 库 的 能 力 ， 这 给 创建 依赖 项 目 工程 中 的 外 部 组 件 和 添加 复杂 需求 市 来 便利 。 
当然 ， 在 本 书 中 最 重要 的 依赖 是 DpenCV， 我 们 将 它 添加 到 所 有 的 项 目 工程 中 去 : 


cmake minimum required (VERSION 2.6) 

cmake policy (SET CMP0012 NEW) 

PROJECT (Chapter2) 

# 需要 OpenCV 

FIND PACKAGE( OpenCV 3.0.0 REQUIRED ) 

# 显示 检测 到 的 OpenCV 版 本 信息 

MESSAGE ("OpenCV version : ${OpenCV VERSION}'") 
include directories(${OpenCV INCLUDE DIRS)})) 
link directories(${OpenCV LIB DIR}) 

# 创建 一 个 SRC 变量 

SET(SRC main.cpp ) 

# 创建 可 执行 文件 

ADD EXECUTABLE( ${PROJECT NAME} ${SRC} ) 

# 链接 库 

TARGET LINK LIBRARIES( ${PROJECT NAME} ${OpenCV LIBS} ) 


接 下 来 分 析 下 脚本 的 工作 原理 : 


cmake minimum required (VERSION 2.6) 
cmake policy (SET CMP0012 NEW) 
PROJECT (Chapter2) 


第 一 行 定义 了 CMake 的 最 低 版 本 ; 第 二 行 告诉 CMake 使 用 新 行为 ， 以 便 它 可 以 正确 识别 数字 和 布尔 值 常 数 而 无 须 使 用 名 称 
解 引 用 变量 。CMake2.8.0 版 本 介绍 了 这 项 政策 ， 在 3.0.2 版 本 中 不 设置 CMake 和 警告 。 最 后 一 行 定义 了 项 目 工程 的 标题 : 


# 需要 OpenCV 

FIND PACKAGE ( OpenCV 3.0.0 REQUIRED ) 

# 显示 检测 到 的 OpenCV 版 本 信息 

MESSAGE ("OpenCV version : ${OpenCV VERSION}") 
include directories(${OpenCV INCLUDE DIRS }) 
link directories(${OpenCV LIB DIR}) 


这 是 搜索 OpenCV 依 赖 项 的 地 方 。FIND_PACKAGE 是 允许 发 现 依赖 项 ， 并 根据 是 必 选 还 是 可 选 得 到 的 最 低 版 本 要 求 的 了 
数 。 在 这 个 脚本 示例 中 ， 需 要 OpenCV 3.0.0 版 本 或 更 高 版 本 ， 而 且 它 是 一 个 必 选 的 软件 包 、。 


、 
-ex 


~FIND_PACKAGE 命 令 包 括 OpenCV 的 所 有 子 模 块 ， 但 是 可 以 指定 想 要 包括 在 其 中 使 应 用 程序 更 小 、 更 快 的 子 模块 。 例 
如 ， 如 果 想 要 仅 使 用 基本 OpenCV 类 型 和 核心 功能 ， 可 以 使 用 下 面 的 命令 行 


FIND PACKAGE (OpenCV 3.0.0 REQUIRED core) 


如 果 CMake 发 现 不 了 它 ， 它 会 返回 一 个 错误 ,但 不 妨碍 编译 应 用 程序 。 
MESSAGE 消 数 在 终端 或 CMake GUI 上 显示 一 条 消息 。 在 本 例 中 ， 我 们 将 显示 OpenCV 版 本 ， 具 体 如 下 : 


OpenCV version : 3.0.0 


$fOpenCV VERSION} 是 一 个 CMake 存 储 OpenCV 包 版 本 的 变量 。 


include directories () 和 link directories () 在 环境 中 添加 指定 库 的 头 文件 和 目录 。OpenCV 的 CMake 模 块 将 这 个 数据 
保存 到 $fOpenCV_INCLUDE_DIRS} 和 $fOpenCV_LIB_DIR} 变 量 。 这 些 行 并 非 在 所 有 平台 (如 Linux) 上 都 是 必 选 的 ， 因 为 这 些 
路 径 通 常 是 在 环境 中 ， 但 它 通 过 正确 的 链接 和 引用 目录 提供 了 多 个 OpenCV 版 本 供用 户 选 择 : 


# 创建 一 个 SRC 变量 

SET (SRC main.cpp ) 

# 创建 可 执行 文件 

ADD EXECUTABLE( ${PROJECT NAME} ${SRC} ) 


# 链接 库 
TARGET LINK LIBRARIES( ${PROJECT NAME} ${OpenCV LIBS} ) 


最 后 一 行 创建 可 执行 文件 并 将 其 链接 到 OpenCV 库 中 ， 正 如 我 们 在 2.2 节 中 所 看 到 的 。 


在 这 段 代 码 中 ， 还 有 一 个 名 为 SET 的 新 函数 。 这 个 函数 创建 一 个 新 的 变量 ， 并 向 其 添加 所 需要 的 任何 值 。 在 本 例 中 ， 设 置 
SRC 变 量 的 值 为 main.cpp。 然 而 ， 在 下 面 的 脚本 中 ， 可 以 添加 更 多 值 到 相同 的 变量 : 


SET (SRC main .cpp 
Wl Uy, ee 
SOLOr Oo 


2.4 脚本 复杂 化 


本 节 将 会 介绍 更 复杂 的 但 是 只 有 两 个 文件 和 几 行 代码 的 脚本 ， 它 包括 子 文件 夹 、 库 和 可 执行 文件 。 


因为 可 以 在 主要 的 CMaketLists.txt 文 件 中 指定 一 切 ， 所 以 无 须 强制 性 创建 多 个 CMakeLists.txt 文 件 。 对 每 个 项 目 工程 的 子 文 
件 夹 使 用 不 同 的 CMaketLists.txt 文 件 是 常见 的 ， 目 的 是 使 它 更 灵活 和 便携 。 


示例 包括 一 个 市 有 utils 库 文件 夹 的 代码 结构 文件 夹 ， 以 及 含有 主 可 执行 文件 等 其 他 文件 的 root 文 件 夹 : 


CMakeLists .txt 

main.cpp 

这 七 江 王 总 7 
CMakeLists.txt 
computeTime . CPP 
computeTime.h 
logger .CPP 
logger.h 
DLoOLDC1NG opp 
BloGtinco lh 


然后 需要 定义 两 个 CMakeLists.txt 驻 件 : 一 个 在 root 文 件 夹 ， 另 一 个 在 utils 文 件 夹 中 。root 文 件 夹 中 的 CMaketLists.txt 文 件 
内 容 如 下 : 


cmake minimum required (VERSION 2.6) 
project (Chapter2) 


# OpenCV 包 所 需 
FIND PACKAGE( OpenCV 3.0.0 REQUIRED ) 


# 添加 OpenCV 头 文 件 
include directories( ${(OpenCV INCLUDE DIR} ) 


link directories (${OpenCV LIB DIR}) 


add subdirectory (utils) 


# 添加 预 编译 器 的 可 选 日 志 


option (WITH LOG "Build with output logs and images in tmp" OFE) 
if (WITH LOG) 

add definitions (-DLOG) 
endif (WITH LOG) 


# 生成 新 的 可 执行 文件 

add executable( ${PROJECT NAME} main.cpp ) 

# 链接 项 目的 依赖 

target link libraries( ${PROJECT NAME} ${OpenCV LIBS} Utils) 


几乎 所 有 的 行 在 前 面 的 章节 都 介绍 过 了 ， 余 下 的 将 会 在 后 面 的 章节 中 分 析 。 
add subdirectory () 告诉 CMake 分 析 所 需 子 文件 夹 中 的 CMakeLists.txt 文 件 。 
再 继续 分 析 主 文件 夹 中 的 CMakeLists.txt 文 件 前 ， 需 要 解释 下 utils 文 件 夹 中 的 CMakeLists.txt 文 件 。 


在 utils 文 件 夹 里 的 CMakeLists.txt 文 件 中 ， 需 要 编写 一 个 在 主 工程 文件 夹 下 要 引用 的 新 库 : 


# 为 utils 库 添加 新 变量 
SET (UTILS LIB SRC 
computeT1ime .CPP 


logger .cpp 
BLOCELNg: CPD 
) 
# 创建 新 utils 库 
add library (Utils ${UTILS LIB SRC} ) 
# 确保 编译 器 可 以 找到 库 中 的 文件 
target include directories (Utils PUBLIC ${CMAKE CURRENT SOURCE DIR)})) 


CMake 脚 本 定义 了 可 以 添加 库 需 要 的 所 有 源 文件 的 UTILS LIB SRC 变 量 ， 使 用 add library 函 数 生成 库 ， 并 使 用 
target_ include directories 函 数 来 允许 主 项 目 检测 所 有 头 文件 。 


抛 开 utils 子 文件 夹 ， 继 续 学 习 root 文 件 夹 中 的 cmake 肢 本， 在 例子 中 可 选 销 数 创 建 了 新 变量 WITH_LOG， 并 附带 少量 搞 
述 。 通 过 ccmake 命 令 行 或 CMake GUI 界面 ， 可 以 修改 这 个 变量 ， 人 允许 用 户 局 用 或 荣 用 这 一 选项 的 描述 ， 并 决定 是 否 将 一 个 复 
选 框 显 示人 在 上 面 。 


这 个 函数 非常 有 用 并 人 允许 用 户 决定 有 关 编 译 时 的 特征 ， 例 如 局 用 或 茶 用 日 志 ， 支 持 OpenCV 编 译 Java 或 Python 等 。 
在 下 面 的 例子 中 ， 使 用 选项 开启 项 目 工 程 的 日 志 功 能 。 使 用 代码 中 的 预定 义 开启 日 志 功 能 : 
#ifdef LOG 


logi ("Number of iteration %d", 1); 
#endif 


为 了 告诉 编译 器 需要 LOG 编 译 时 间 定 义 ， 在 CMakeLists.txt 中 使 用 add_definitions (-DLOG) 遂 数 。 若 要 允许 用 户 决 定 是 
否 要 启用 它 ， 只 需要 用 一 个 简单 的 条 件 来 验证 是 否 检 查 CMake 变 量 WITH_LOG: 


if (WITH LOG) 
add definitions (-DLOG) 
endif (WITH LOG) 


现在 已 经 准备 好 在 任何 操作 系统 中 创建 可 以 编译 计算 机 视觉 项 目的 CMake 脚 本 文件 。 下 面 在 开始 一 个 样 例 项 目 工程 前 ， 继 
续 了 解 下 OpenCV 基 础 知识 。 


2.5 ”图像 和 算 阵 


计算 机 视觉 中 最 重要 的 结构 晤 无 疑问 残 是 图 像 。 计 算 机 视觉 中 的 图 像 是 数字 设备 捕 多 到 物理 世界 的 表象 。 下 图 中 的 这 张 照片 
只 是 仓储 在 中 阵 格 式 中 的 数字 序列 。 每 个 数字 是 一 个 考虑 的 波长 (例如 彩色 图 像 中 的 红色 、 绿 色 或 监 色 ) 或 波长 范围 (对 全 色 设 
备 而 言 ) 的 光 强 衡量 。 图 像 中 的 每 个 点 称 为 像素 (对 图 像 元 素 而 言 ) ， 每 个 像素 可 以 存储 一 个 或 多 个 值 ， 这 取决 于 它 是 否 为 灰 
色 、 黑 色 或 日 色 图 像 〈 也 称 为 二 进 制 图 像 ) ， 这 些 值 存储 只 有 一 个 值 ， 例 如 0 或 者 1。 灰 度 级 尺度 图 像 可 以 存储 一 个 值 ， 彩 色 图 
像 可 以 存储 三 个 值 。 这 些 值 通常 是 介 于 0 到 255 之 间 的 整数 ， 但 是 还 可 以 使 用 另 一 个 范围 。 例 如 ，HDRI (High Dyhamic 
Range， 高 动态 范围 成 像 ) 或 热 图 像 ， 它 们 是 从 0 到 1 的 浮 点 数字 。 


图 像 存储 在 矩阵 格式 中 ， 在 那里 每 个 像素 都 有 个 位 置 ， 可 以 通过 列 数 和 行 数 引 用 到 它 。OpenCV 类 用 Mat 类 来 实现 。 下 图 显 
示 的 是 使 用 一 个 单一 矩阵 的 灰 度 图 像 : 
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下 图 所 示 的 是 彩色 图 像 ， 我 们 使 用 一 个 宽度 x 高 度 x 癌 色 数 目的 和 矩阵 : 
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Mat 类 不 只 用 于 存储 图 像 ， 而 且 还 可 以 存储 任意 大 小 的 不 同类 型 的 矩阵 。 可 以 使 用 它 作为 代数 矩阵 ， 并 执行 操作 。 在 下 一 章 
中 ， 将 会 搞 述 最 重要 的 矩阵 操作 ， 例 如 加 法 、 和 矩阵 乘法 、 创 建 一 个 对 角 算 阵 等 。 


然而 在 此 之 前 ， 需 要 重点 掌握 在 计算 机 内 存 中 和 矩 阵 内 部 是 如 何 存储 的 ， 因 为 它 始终 能 更 好 地 、 高 效 地 访问 内 存 插 槽 ， 而 不 是 
使 用 OpenCV 阔 数 访问 每 个 像素 。 


在 内 存 中 ， 算 阵 锌 保存 为 数组 或 值 按 列 和 行 有 序 排 惠 的 序列 。 下 表 显示 BGR 图 像 格 式 中 的 像素 序列 : 


了 下 
像素 1 | 像素 : : 像素 9 
ee 


按 此 顺序 ， 通 过 下 面 的 公 陈 残 可 以 访问 任何 像素 : 


Value= Row li*num cols*num channels + Col 1 + channel 1 


SR OpenCV 函 数 对 随机 存 取 进 行 充分 优化 ， 但 有 时 直接 访问 内 存 〔 使 用 指针 计算 ) 更 为 有 效 ， 例 如 ， 在 一 个 循环 中 访问 到 
的 所 有 像素 。 


2.6 ” 读 瑟 图 像 


介绍 完 算 阵 ， 接 下 来 束 要 从 OpenCV 基 本 代码 开始 学 习 了 。 首 先 ， 需 要 学 会 如 何 读 取 和 写 入 图 像 : 


#include <iostream> 
#include <string> 
#include <sstream> 
using namespace std,; 


// OpenCV 头 文件 

#include "opencv2/core.hpp" 
#include "opencv2/highgui .hpp" 
using namespace cyv,; 


int main( int argc, const char** argv ) 
{ 
// 读 图 像 


Mat color= imread("../lena.jpg"); 


Mat gray= imread("../lena.jpg", 0); 


// 写 图 像 


lmwrite("lenaGray.Jpg", gray); 


// 通过 opencv 函数 获取 相同 像素 

1Lnt myRow=color.cols-1; 

int myCol=color.rows-1; 

Vec3b pixel= color.at<Vec3b> (myRow, myCol),; 

OU ne TEIXNEL ValUue. (BOR HY we (TTL)IDIXELIO) ee To ex 
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// 显示 图 像 
imshow("Lena BGR" ，ColLor) ; 
1ImSshow ("Dena Gray", gray); 


// 等 待 按键 
waitKey(0); 
return 0;，; 


下 面 来 分 析 这 段 代 码 : 


// OpenCV 头 文件 

#include "opencv2/core.hpp" 
#include "opencv2/highgui .hppn 
using namespace cv; 


首先 ， 引 用 在 例子 中 需要 用 到 的 立 数 声明 。 这 些 消 数 来 目 核 心 (基本 图 像 数据 处 理 ) 和 high-gui (OpenCV 所 提供 的 跨 平 
台 lI/O 妆 数 是 core 和 highui。 第 一 行 包括 了 例如 算 阵 等 基本 类 ， 第 二 行 包括 读 取 、 写 入 和 使 用 图 形 界面 显示 图 像 的 阔 数 ) 。 


// 读 图 像 
Mat color= imread("../lena.jpg"),; 
Mat gray= imread("../lena.jpg", 0); 


imread 是 用 于 读 取 图 像 的 主要 为数 。 这 个 函数 打开 图 像 ， 并 以 和 矩阵 格式 仓储 图 像 。imread 了 为数 接受 两 个 参数 : 第 一 个 参数 
是 一 个 包含 这 个 图 像 路 径 的 字符 串 ， 第 二 个 参数 默认 情况 下 是 可 选 的 ， 它 把 加 载 图 像 作 为 一 种 彩色 图 像 。 第 二 个 参数 允许 下 列 选 
贝 : 


Dm | 


“ CV_LOAD_IMAGE_ANYDEPTH: 如 果 设 置 为 这 个 常数 ， 当 输入 有 具有 相应 的 深度 时 返回 一 个 16 位 或 32 位 图 像 ; 否 
则 ，imread 冰 数 将 它 转 换 为 8 位 图 像 。 


“ CV_LOAD_IMAGE_COLOR: 如 果 设 置 为 这 个 常数， 总 是 将 图 像 转 换 为 彩色 的 。 
.CV_LOAD _ IMAGE_GRAYSCALE : 如 果 设 置 为 这 个 常数 ， 总 是 将 图 像 转 换 为 灰 度 。 
在 计算 机 中 ， 可 以 使 用 imwrite 辆 数 存 储 和 矩 阵 图 像 : 


// 写 图 像 


imwrite("lenaGray.jpg", gray).,， 


第 一 个 参数 是 市 有 所 需 扩 展 格 式 的 图 像 保存 路 径 。 第 二 个 参数 是 想 要 保存 的 炬 阵 图 像 。 在 示例 代码 中 ， 创 建 和 存储 灰 度 版 本 
的 图 像 ， 然 后 加 载 并 将 存储 在 gray 变 量 中 的 灰 度 图 像 保 存 为 JPG 格 式 的 灰 度 图 像 : 


// 通过 opencv 函数 获取 相同 像素 
int myRow=color.cols-1; 
int myCol=color.rows-1; 


使 用 和 炬 阵 的 .cols 和 .rows 属 性 ， 束 可 以 访问 图 像 的 列 行 数 ， 或 者 换 句 话说 ， 丈 可 访问 壳 度 和 高 度 : 


Vec3b pixel= color.at<Vec3b> (myRow, myCol).,; 
CUE we PRE value BG Rls 1 ee CIDUIDIXeELLID) we Tr ,ee CENE) 
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右 要 访问 图 像 的 一 个 像 率 ， 可 以 使 用 DpenCV 的 Mat 类 中 的 cv: : Mat: : at<typename t> (row，col) 模板 函数 。 模 槐 
参数 是 要 有 返回 类 型 。8 位 彩色 图 像 中 的 typename 是 一 个 Vec3b 类 ， 它 存储 三 个 无 符号 字符 数据 (Vec= 向 量 ，3= 组 件数 ， 以 
及 b=1 字 节 ) 。 在 灰 度 图 像 中 ， 可 以 直接 使 用 图 像 中 的 无 符号 的 字符 或 任何 其 他 数字 格式 ， 例 如 uchar 


pixel=color.at<uchar> (myRow, myCol) : 


// 显示 图 像 
imshow("Lena BGR", color); 
limshow("Lena Gray", gray),; 


// 等 待 按键 
waitKey(0); 


最 后 ， 各 要 显示 图 像 ， 可 以 使 用 mshow 阔 数 创建 一 个 窗口 ， 其 中 第 一 个 参数 是 标题 ， 第 二 个 参数 是 图 像 拒 阵 。 


\ 尽 一 如果 想 允 许 等 待 用 户 按 任意 键 停止 应 用 程序 ， 可 以 使 用 DpenCV 中 的 waitKey 函 数 ， 并 将 参数 设置 为 要 等 待 的 毫秒 数 。 如 


果 将 这 一 参数 设置 为 0 》 将 永远 等 待 。 


这 段 代码 的 结果 显示 在 下 面 的 图 像 中 。 


Lena BGR Lena Gray 


最 后 ， 在 下 面 的 示例 中 ， 创 建 CMakeLists.txt 来 编译 项 目 。 
下 面 的 代码 是 CMakeLists.txt 文 件 : 


cmake minimum required (VERSION 2.6) 
cmake policy(SET CMP0012 NEW) 
PROJECT (project) 


# OpenCV 所 需 
FIND PACKAGE ( OpenCV 3.0.0 REQUIRED ) 
MESSAGE ("OpenCV version : ${0OpenCV VERSION}") 


include directories(${OpenCV INCLUDE DIRS)}) 
link directories(${OpenCV LIB DIR)) 

ADD EXECUTABLE( sample main.cpp ) 
TARGET LINK LIBRARIES( sample ${OpenCV LIBS} ) 


若 要 编译 代码 ， 使 用 CMakeLists.txt 文 件 必 须 执 行 下 面 的 步骤 : 


1. 创 建 一 个 build 文 件 夹 。 


2. 企 build 文 件 夹 中 ， 执 行 cmake 或 在 Windows 中 打开 CMake gui 应 用 程序 ， 选 择 源 文件 夹 和 生成 文件 来 ， 点 击 配置 和 生成 
按钮 。 


3. 在 第 2 步 之 后 ， 如 果 使 用 的 是 Linux 或 OS， 生 成 makefile; 然后 使 用 make 命 令 行 编译 项 目 。 如 果 在 Windows 中 ， 必 须 用 
在 步骤 2 选择 的 编辑 器 中 打开 项 目 工程 并 对 其 进行 编译 。 


4. 在 第 3 步 之 后 ， 将 得 到 可 执行 文件 app。 


2.7” 读 取 钢 频 和 摄像 头 


本 节 介 绍 通 过 简单 的 例子 读 取 视频 和 摄像 头 : 


#include <iostream> 
#include <string> 
#include <sstream> 
using namespace std; 


// OpenCV 头 文件 

#include "opencv2/core .hppn 
#include "opencv2/highgui .hpp" 
using namespace cyv,; 


// OpenCV 命令 行 解析 器 函数 
// 命令 行 解析 器 接受 的 按键 
const char* keys = 


{ 


"{help h usage ? | | print this message}" 
"{@video | | Video file, if not defined try to use webcamera}" 
int main( int argc, const char** argv ) 


CommandLineParser parser (argc, argv, keys); 
Darsger about ("Chavter 2 vis00"); 


// 如 果 需 要 ， 显 示 帮 助 文档 
If (parser.has ("help")) 
{ 
parser.printMessage(); 
return 0; 


} 


String videoFile= parser.get<String>(0),， 


// 分 析 params 的 变量 ,检查 params 是 否 正 确 
if (!parser.check ()) 
{ 

parser.printErrors(); 

return 0，; 


VideoCapture cap; // 打开 默认 相机 
if (videoFile != "") 
cap.open (videorFile).,; 
else 
cap.open (0); 
if(!cap.isOpened()) // 检查 是 否 成 功 了 


return -1.， 


namedWindow ("Video",1).; 
站 


{ 


Mat frame; 


cap >> frame; // 获取 摄像 机 的 帧 


imshow ("Video", frame).,; 
if (waitKey(30) >= 0) break; 


} 
// 普 放 的 摄像 机 或 视频 cap 


Cap .release() :; 


return 0 ， 


在 解释 如 何 读 取 视频 或 照相 机 输入 之 前 ， 需 要 介绍 一 个 有 用 的 新 类 ， 它 将 帮助 我 们 管理 输入 的 命令 行 参数 ; 该 类 名 为 
CommandLineParser， 在 OpenCV 3.0 版 本 中 介绍 了 它 : 


// OpenCV 命令 行 解析 器 功能 
// 命令 行 解析 器 接受 的 按键 
const char* keys = 


{ 


"{help h usage ? | | print this message}" 
"{@video | | Video file, if not defined try to use webcamera}'" 


}; 


为 一 个 命令 行 解析 器 做 得 第 一 件 事 是 定义 需要 或 允许 一 个 在 党 字符 向 量 中 的 参数 ， 每 一 行 都 具有 这 种 模式 : 


{ name param | default value | description,) 


name param 前 面 可 以 带 有 @， 这 样 定义 了 这 个 参数 为 默认 值 输入 。 可 以 使 用 多 个 name param: 


CommandLineParser parser (largc, argv, keys),; 


构造 辫 数 将 获取 主 沙 数 的 输入 和 之 前 定义 的 关键 常量 : 


// 如果 需要 帮助 显示 
if (parser.has ("help")) 


{ 


parser.printMessage(); 
TECUEN Us 


.has 类 方法 检查 参数 是 否 人 存在。 在 这 个 示例 中 ， 我 们 检查 用 户 是 人 否 已 添加 -help 或 ”参数 ， 然 后 ， 使 用 printMessage 类 函数 
显示 所 有 摘 述 参数 : 


String videoFile= parser.get<String>(0); 


使 用 .get<typename> (parameterName) 函数 ， 可 以 访问 和 读 取 任何 输入 参数 : 


// 分 析 它 的 变量 是 否 被 正确 解析 
lf (!parser.check()) 


{ 


parser.printErrors () ; 
return 0 ; 


在 获得 所 有 必需 的 参数 之 后 ， 如 果 其 中 一 个 参数 不 被 解析 ， 可 以 检查 这 些 参数 是 否 能 够 正确 解析 ， 并 且 显 示 错 误 消 息 。 例 
如 ， 添 加 一 个 字符 串 来 代 蔡 数字 : 


VideoCapture cap; // 打开 默认 相机 


1f (videoFile != "") 
cap.open (videoFile); 
else 


cap .open(0); 


if(!cap.isOpened()) // 检查 是 否 成 功 了 
return -1， 


读 取 视频 和 摄像 机 的 类 是 相同 的 。 在 OpenCV 新 版 本 中 ，VideoCapture 类 属于 videoio 子 模块 。 创 建 对 象 后， 检查 输入 的 命 
令 行 videoFile 参 数 是 否 具 有 路 径 文 件 各。 如 果 它 是 空 的 ， 则 尝试 打开 网 络 摄 像 机 ， 如 果 它 有 文件 和 名， 则 打开 视频 文件 。 要 做 到 
这 一 点 ， 可 以 使 用 开放 函数 ， 把 想 要 打开 的 视频 文件 名 或 者 索引 照相 机 作为 参数 。 如 果 是 单一 的 摄像 机 ， 可 以 使 用 0 作为 参数 。 


检查 是 人 否 可 以 读 取 视频 文件 名 或 者 摄像 机 ， 可 以 使 用 isOpened 消 数 : 


mamedaNinadaow("Viadeo'" 1) ; 
总 sd 检 汪 汪 
| 
Mat frame ; 
cap >> frame; // 获取 摄像 机 的 帧 
1f (frame) 
imshow ("Video'", frame).; 
lf (waitKey(30) >= 0) break; 


} 
// 释放 的 摄像 机 或 视频 cap 


cap.release (); 


最 后 ， 用 namedWindow 遂 数 创 建 一 个 显示 帧 的 窗口 。 在 非 完 成 循环 中 ， 如 果 正 确 地 检索 帧 ， 通 过 > > 操作 可 以 抓 住 每 个 
帧 ， 并 且 使 用 imshow 孙 数 显示 图 像 。 在 这 种 情况 下 ， 如 果 我 们 不 想 停止 应 用 程序 ， 也 需要 等 竺 30 毫秒 来 检查 用 户 是 否 想 使 用 
waitKey (30) 任意 键 来 停止 执行 应 用 程序 。 
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一 使 用 摄像 机 访问 的 时 候 ， 选 择 一 个 等 待 下 一 帧 的 合适 的 值 ， 可 以 通过 计算 摄像 机 速度 值 进 行 设置 。 例 如 ， 如 果 摄 像 在 20 
帧 / 秒 工 作 ， 人 合适 的 等 待 值 是 40=1000/20。 


当 用 户 想 结束 应 用 时 ， 他 不 得 不 只 按 一 个 键 ， 然 后 必须 使 用 release 阔 数 释放 所 有 的 视频 资源 。 


\ 一 在 计算 机 视觉 应 用 中 释放 所 有 资源 是 非常 重要 的 ; 如 果 不 这 么 做 ，RAM 内 存 会 被 全 部 消耗 掉 。telease 函 数 还 可 以 释放 和 


在 下 面 的 屏幕 快照 中 显示 了 代码 运行 结果 ， 一 个 显示 BGR 格 式 的 视频 或 Web 摄 像 机 的 新 窗口 : 


之 前 了 解 了 Mat#0Vec3b 的 类 ,但 是 下 面 还 需要 了 解 其 他 


在 本 章节 中 ， 将 会 了 解 在 大 多 数 项 目 中 所 需 的 最 基本 对 象 类 型 


” Vec 


* Scalar 


了 Point 


* Size 


* Rect 


* RotatedRect 


O 


vec 是 一 个 模板 类 ， 主 要 用 于 数值 合 量 。 我 们 可 以 定义 任何 类 型 的 向 量 和 大 量 的 组 件 : 


Vec<double,19> myVector; 


或 者 可 以 使 用 任何 预定 义 类 型 : 


typedef Vec<uchar, 2> Vec2b; 
typedef Vec<uchar, 3> Vec3p ; 
typedef Vec<uchar, 4> Vec4Db ; 


typedef Vec<short, 2> Vec2s; 
typedef Vec<short, 3> Vec3sS ; 
typedef Vec<short, 4> Vec4s; 


typedef Vec<int, 2> Vec21:; 
typedef Vec<int, 3> Vec3i; 
typedef Vec<int, 4> Vec4i,; 


typedef Vec<float, 2> Vec2f,; 
typedef Vec<float, 3> Vec3f,; 
typedef Vec<float, 4> Vec4f, 
typedef Vec<float, 6> Vec6[f ; 


typedef Vec<double, 2> Vec2d; 
typedef Vec<double, 3> Vec3d,; 
typedef Vec<double, 4> Vec4d; 
typedef Vec<double, 6> Vec6d; 


所 有 预期 的 向 量 运算 也 实现 了 ， 如 下 所 示 : 


wo V2 + V3 


V1L = V2 - V3 


V1 = V2 * scale 


V1 = scale * v2 

V1 = -V2 

V1 += V2 和 其 他 扩展 运算 
Ml i pW Bs 


norm(v1) ( 欧 几 里 得 向 量 范 数 ) 


2.8.2 Scalar 对 针 类 型 


Scalar 对 象 类 型 是 Vec 派 生出 的 具有 四 个 元 素 的 模板 类 。Scalar 类 型 广泛 用 于 OpenCV， 它 传递 并 读 取 像素 值 。 


若 要 访问 Vec 和 Scalar 值 ， 可 以 使 用 [] 运 算 符 。 


2.8.3 ”Point 对 象 类 型 


另 一 个 非常 常见 的 类 模板 是 Point。 此 类 定义 指定 由 其 x 和 y 坐 标 构建 的 2D 点 。 
让 和 ~ 类似 Point 对 象 类 型 ， 还 有 支持 3D 点 的 Point3 模 板 类 。 


像 Vec 类 一 样 ，OpenCV 定 义 以 下 Point 别 名 从 而 提供 便利 : 


typedef Point <int> Point21; 
typedef Point21 Point.; 

typedef Point <float> Point2f; 
typedef Point <double> Polnt2d; 


double value = norm(pt); // 12 范 数 
ptl1 == pt2; 
Del Lm Dt 


2.8.4” Size 对象 类 型 


另 一 个 是 非常 重要 的 模板 类 : Size 类 ， 它 用 于 指定 图 像 或 矩形 的 尺寸 。 这 个 类 添加 两 个 成 员 : 宽度 和 高 度 ， 以 及 一 个 有 用 的 
area () 闵 效 。 


2.8.5 “Rect 对 象 类 型 


Rect 是 另 一 个 重要 的 模板 类 ， 通 过 下 面 的 参数 定义 2D 短 形 : 
. 顶部 左上 角 的 坐标 
宽度 和 高 度 的 和 珑 形 


Rect 模 板 类 可 以 使 用 定义 ROI (region of interest， 感 兴趣 区 域 ) 的 图 像 。 


2.8.6 RotatedRect 寺 j 稼 类 型 


最 后 一 个 有 用 的 类 是 特殊 的 所 形 ， 称 为 RotatedRect。 这 个 类 表示 旋转 的 起 形 通 过 所 定 中 心 点 、 和 起 形 的 金 度 和 遍 度 ， 以 及 旋 
转角 度 来 定义 : 


RotatedRect (const Polnt2f& center, const Size2f& size, float angqle) ; 


这 个 类 的 一 个 有 趣 的 功能 是 boundingBox; 这 个 函数 返回 包含 旋转 的 矩形 的 Rect: 


OD 


center 


Bounding Box 


2.9 ” 直 阵 的 基本 运算 


在 本 世 中 ， 将 会 学 习 一 毕 基本 和 重要 的 矩阵 运算 ， 可 以 将 其 应 用 于 图 像 或 任何 所 阵 数据 。 


还 学 会 了 如 何在 变量 Mat 中 加 载 图 像 并 存储 ， 我 们 可 以 手动 创建 一 个 Mat 变 量 。 最 常见 的 构造 遂 数 提供 的 矩阵 大 小 和 类 型 如 
下 所 示 : 


Mat a= Mat (Size(5,5), CV 32F); 


使 用 下 列 构造 函数 ， 可 以 不 复制 数据 从 第 三 方 库 的 存储 缓冲 区 来 创建 一 个 新 的 矩阵 链接 (Mattix link) : 


Mat (size, type, pointer to buffer) 


又 持 的 类 型 取决 于 类 型 的 仓储 和 通道 数 。 最 单 见 的 类 型 如 下 所 示 : 


CV 8UC1 
CV 8UC3 
CV 8UC4 
CV 32FC1 
Shric ek 
CV 32FC4 


RK i AAA 口 、 DR 上 
可 以 用 CV_number typeC (n) 创建 任何 类 型 的 矩阵 ，numbet _ type 是 从 8U (无 符号 的 8 位 ) 到 64F (64 位 浮 点 数 ) 。 (n) 
是 通道 的 数量 。 所 允许 的 通道 数 是 从 1 到 CV_CN_MAX。 


切 始 化 数据 ， 可 能 会 得 到 不 民 值 。 若 要 避免 不 民 值 ， 可 以 使 用 0 或 1 肖 数 初始 化 0 或 1 值 的 矩阵 : 


Mat mz= Mat;:zZeros(5,5, CV 32F);} 
Mat mo= Mat::ones(5,5, CV 32F); 


前 面 炬 阵 的 输出 如 下 所 示 : 


U000 0 1 
U000 0 1 1 1 1 | 
00000 1 1 11 
00000 EE 
U000 0 i 


eye 上 冰 数 可 以 初始 化 特殊 算 陡 ， 创 建 一 个 所 定 类 型 
(CV 8UC1, CV 8UC3http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15833/OEBPS/Text/...) 和 大 小 的 恒 等 矩 阵 : 


Mat m= Mat::eye(5,5，CV 32F); 


输出 如 下 所 示 : 
1 000 0 
0 100 0 
00 10 0 
000 1 0 
0000 1 


OpenCyv 的 Mat 类 允许 所 有 起 阵 操作 。 可 以 通过 + 和 -运算 街 进行 两 个 号 阵 的 加 或 减 操作 : 


Mat a= Mat::eye(Size(3,2), CV 32F); 
Mat b= Mat::ones(Size(3,2), CV 32P) ; 
Mat c= a+b; 
Mat d= a-Db; 


先 操作 的 结果 如 下 所 示 : 


可 以 使 用 mul 钞 数 ， 它 将 用 * 运 算 符 进行 一 个 算 阵 与 标量 乘法 ， 或 每 个 矩阵 元 素 乘 去， 又 或 者 一 个 矩阵 与 算 阵 乘法 : 


Mat ml= Mat::eye(2,3, CV 32PFI) ; 

Mat m2= Mat::ones(3,2, CV 32F); 

// 标量 矩阵 

Cout << "\nml.*2\n" << ml*2 << endl， 

// 和 矩阵 元 素 乘 法 

cout << "\n(ml+2) .* (ml+3) \n" << (ml+1) .mul (ml+3) << endl. 
// 矩阵 乘法 


COout << "\nml*m2\n" << ml*m2 << endl; 


操作 的 结果 如 下 所 示 : 


| 
| | 
| mm 
| 
[Eee 


1 9 ol], 有 
0 1 0 | ] 


: 


其 他 单 见 的 数学 矩 孟 运 算是 通过 t () 和 inv () 遂 数 实现 矩阵 转换 和 算 阵 求 逆 。 


OpenCV 为 我 们 提供 了 其 他 有 用 的 函数 是 在 一 个 矩阵 中 进行 数组 操作 ; 例如 ， 计 算 非 零 元 素 。 这 是 有 用 来 计数 像素 或 区 域 的 
对 象 : 


int countNonZero( src ) ; 


OpenCV 提 供 了 一 些 统计 的 功能 。 使 用 meanStdDev 函 数 可 以 计算 平均 值 和 标准 偏 笑 的 通道 : 


meanSsStdDev (src, mean, stddev).; 

其 他 有 用 的 统计 函数 是 minMaxLoc。minMaxLoc 子 数 可 以 友 现 矩阵 或 数组 的 最 小 值 和 最 大 值 ， 并 返回 其 位 置 和 值 : 
minMaxLoc (SC，mlInVvValLl ，maxValLl ，m1LnLoc ，maxLoc ) ; 

在 这 里 ，src 是 输入 的 算 阵 ，minVal 和 maxVal 是 双 精 度 值 检测 ，minLoc 和 maxLoc 是 检测 到 的 点 值 。 


安全 其 他 核心 和 有 用 的 功能 可 参见 http://docs.opencv.org/modules/core/doc/core.html。 


2.10 ”基本 数据 持久 性 和 仔 悄 


之 前 完结 本 章 前 ， 还 将 继续 探讨 OpenCV 消 数 存 储 和 读 取 数据 。 校 准 或 机 器 学 习 等 许多 应 用 会 在 完成 计算 时 将 结果 保存 , 万 
便 在 下 一 次 检索 到 它们 。OpenCV 提 供 的 XML/YAML 持 久 化 层 可 以 完成 这 个 任务 。 


文件 存储 写 入 


要 将 一 些 OpenCV 数 据 或 其 他 的 数值 数据 写 入 文件 ， 可 以 使 用 FileStorage 类 中 (如 STL 流 的 ) c 运 算 符 的 流 : 


#include "opencv2/opencyv .hpp" 
USing namespace cyv; 


int main(int, char** argV) 
{ 
// 创建 写 
FileStorage fs("test.yml", FileStorage: :WRITE) ; 
// 保存 为 int 
int fps= 5; 
上 证人、 和 于 门卫 瑟 全 下 六 但 和 
// 创建 mat 文 例 
Mat ml= Mat::eye(2,3, CV 32F1) ; 
Mat m2= Mat::ones(3,2, CV 32F),; 


Mat result= (ml+1) .mul (ml+3).; 
// 打印 结果 

fs << "Result" << result; 
// 杰 放 文件 


fs .release () ; 

FileStorage fs2("test.yml", FileStorage: :READ) ; 
Mat 工 ; 

fs2["Result"] >> 工 ; 

std: :cout << r << Std: :emnal] ， 


fs2 .releaSe() :; 


returrn 总 ， 


要 创建 保存 数据 的 存储 文件 ， 只 需要 调用 文件 路 径 的 扩展 格式 是 XML 或 者 YAML 的 构造 销 数 ， 并 将 第 二 个 参数 设置 为 
WRITE: 


FileStorage fs("test.yml", FileStorage: :WRITE) ; 


如 果 想 要 保存 数据 ， 只 需 对 第 一 阶段 识别 和 想 要 在 稍 后 阶段 中 保存 的 和 矩阵 或 值 使 用 流 操 作 符 。 例 如 ， 若 要 保存 int， 需 要 编 
写 下 面 的 代码 : 


Lie ED 
Ea we TEDSN ww Toa 


mat 的 示例 如 下 所 示 : 


Mat ml= Mat::eye(2,3, CV 32PF) ; 
Mat m2= Mat::ones(3,2, CV 32F); 
Mat result= (ml+1) .mul (ml+3),; 
// 打印 结果 


fs << "Result" << result,. 


在 YAML 格 式 下 显示 如 下 : 


TYAML:1.0 

和 为 

Result: !!opencv-matrix 
rows: 2 
COLS; ;3 
= 


autas | Bp Dorp Bg Bny By DB 


前 面 已 保存 文件 的 读 操 作 与 保存 操作 非常 相似 : 


#include "opencv2/opencyv .hpp" 
usSing namespace cyv,; 


Jnt mailin(int, char* arogv) 


FileStorage fs2("test.yml", FileStorage: :READ) ; 
Mat 工 ; 
fs2["Result"] >> 工 ; 
std: :cout << rr << BtQ: :emnQJL ; 
fs2.release().,， 
Teturn Us 


首先 ， 通 过 适当 的 路 径 和 FileStorage: : READ 参 数 使 用 FileStorage 构 造 辫 数 打 开 已 保存 文件 : 
FileStorage fs2("test.yml", FileStorage: :RERAD) ; 
若 要 读 取 任 何 存储 的 变量 ， 我 们 只 需要 通过 FileStorage 对 象 和 [运算 符 ， 来 识别 使 用 > > 流 运算 符 : 


Mat 工 ; 
fs2["Result"] >> 工 ; 


2.11 总结 


/AN 一 喇 


在 本 章 中 ， 我 们 学 会 了 如 何 访问 图 像 和 视频 ， 以 及 它们 在 矩阵 中 的 存储 方式 。 


我 们 还 学 习 了 基本 起 阵 运算 和 仓储 像素 、 辕 量 等 的 OpenCV 类 。 
最 后 学 习 了 如 何 将 数据 保存 在 文件 中 ， 以 便 在 其 他 应 用 程序 或 可 执行 文件 中 读 取 数据 。 


在 下 一 章 中 ， 我 们 将 通过 学 习 OpenCV 提 供 的 图 形 用 户 界 面 的 基础 知识 来 创建 第 一 个 应 用 程序 ， 同 时 还 会 创建 按钮 和 滑动 
条 ， 并 学 习 一 些 有 关 图 像 处 理 的 基础 知识 。 


第 3 草 ”图 形 用 尸 界面 和 基本 滤波 


在 上 一 章 中 ， 我们 学 习 了 OpenCV 的 一 些 基本 的 类 和 结构 ，Mat 是 其 中 一 个 重要 的 类 。 
我 们 还 学 习 了 如 何 读 取 和 储存 图 像 、 视 频 ， 以 及 存储 在 内 存 中 图 像 的 内 部 结构 。 


现在 已 经 做 好 开始 工作 的 准备 了 ， 但 是 还 需要 显示 结果 ， 并 与 图 像 产 生 一 些 基 本 的 交互。OpenCyV 提 供 了 一 些 基本 的 用 户 界 
面 用 于 使 用 和 帮助 建立 应 用 程序 和 原型 。 


为 了 更 好 地 理解 用 户 界 面 的 工作 原理 ， 企 本 章 末 尾 会 创建 一 个 名 为 “图 像 工 具 ” (PhotoTool) 的 小 应 用 程序 。 在 这 个 应 用 
中 ， 我 们 将 会 学 习 如 何 使 用 滤波 和 色彩 变换 。 


本 章 将 涵盖 如 下 主题 : 
- OpenCV 的 基本 用 户 界 面 
. OpenCV 的 QT 界面 
` 消 动 条 和 按钮 
高 级 用 户 接 口 一 一 OpenGL 
-色彩 变换 


3.1 介绍 OpenCV 的 用 户 界 面 


OpenCV 有 上 自己 本 身 的 跨 操 作 系统 的 用 户 界 面 ， 这 使 得 开 友 者 不 需要 学 习 复 杂 的 库 残 可 以 在 用 户 界 面 上 创建 目 己 的 应 用 程 
序 。 


OpenCyv 的 用 户 界 面 是 很 基础 的 ， 但 它 给 计算 机 视 部 开 肥 工程 师 提供 了 创建 和 管理 软件 开 友 的 基本 功能 。 所 有 这 些 都 是 本 地 
的 ， 并 且 在 实时 使 用 中 人 被 优化 过 ，。 


OpenCV 提 供 了 两 个 用 尸 界面 的 选项 : 


基于 本 地 用 户 界 面 的 基本 界面 ， 例 如 OS 叉 用 户 界 面 中 的 Cocoa 或 Carbon，Linux 或 Windows 用 户 界 面 中 的 GIK。 当 编译 
OpenCV 时 ， 它 们 是 上 默认 选中 的 。 


. 基于 QT 库 且 略微 高 级 的 跨 平台 用 户 界 面 。 在 编译 OpenCV 之 前 ， 必 须 在 CMake 中 手动 开启 QT 选项 。 


PP 人 | AP AP 有 一 
2 | | Mi pm AA ww 八 
=- p 4 人 诈 世上 | I MAE Nk 有 1 AN\ 
a eR pd IE \ AAA 一 -一 有 AAA A 
ae 人 一 > < | Nu 棕 : Ws Ws VY > ~ /Wd hd set 
Po ll An NA 


下 面 将 使 用 OpenCV 创 建 一 个 基本 用 尸 界面 。 这 一 界面 允许 创建 窗口 ， 在 上 面 添加 图 像 ， 移 动 它 ， 调 整 它 的 大 小 ， 以 及 销毁 


这 个 界面 是 在 OpenCV 一 个 叫 highui 的 模块 里 : 


#include <iostream> 
#include <string> 
#include <sstream> 
using namespace stad; 


// OpenCV 头 文 件 
#include "opencv2/core.hpp" 
#include "opencv2/highgui .hppn 


USing namespace cv; 
const int CV GUI NORMAL= 0x10; 


unt Ta Ine -ac tonst eharw* TO 】 


{ 
// 读 取 图 像 


Mat lena= imread("../lena.jpg"),; 
Mat ploto= inread(™, 人 GOEE Go ， 


// 创建 窗口 
namedWindow ("Lena", CV GUI NORMRAL ) ; 
namedWindow ("Photo", WINDOW AUTOSIZE).,; 


// 移动 窗口 
moveWindow ("Lena", 10, 10); 
moveWindow ("Photo", 520, 10).， 


// 展示 图 像 
imshow ("Lena", lena).， 
imshow ("Photo", photo),; 


// 调整 窗口 大 小 ， 仅 当 非 自 使 用 模式 时 


reS1lLZzeWlndow("Lena'n，512，512) ; 


// 等 待 有 按键 按 下 
waitKey(0).; 


// 销毁 窗口 
destroyWindow ("Lena"); 
destroyWindow ("Photo").,; 


// 创建 10 个 新 窗口 

for(int 1 =0; 1< 10; 1++} 

人 
ostringstream SS ; 
BE :< PHOobe ™ we 1} 
namedWindow(ss.str()),; 
moveWindow(ss.str(), 20*1, 20*1); 
imshow(ss.str(), photo).; 


walitKev (0) ; 


// 销毁 所 有 窗口 
destroyAllWindows () ; 


return 0; 


下 面 来 学 习 上 述 代码 。 


首先 要 做 的 就 是 引入 OpenCV 的 highui 模 块 ， 这 样 才 可 以 使 用 图 形 用 户 界面 : 


#include "opencv2/highgui .hpp" 


接 下 来 准备 创建 新 窗口 ， 并 加 载 一 些 需 要 显示 的 图 像 
// 读 取 图 像 


Mat lena= imread("../lena.jpg"); 
Mat photo= imread("../photo.jpg"); 


使 用 namedWindow 函 数 创 建 窗口 。 这 个 函数 有 了 两 个 参数 : 第 一 个 参数 是 窗口 名 的 弟 量 字符 串 ， 第 二 个 参数 是 可 选 的 ， 表 
示 所 需 的 窗口 属性 标志 : 


namedWindow ("Lena", CV GUI NORMRALD ) ; 
namedWindow ("Photo", WINDOW AUTOSI2ZB) ; 


在 上 述 例子 中 ,创建 了 名 为 Lena 和 名 为 Photo 的 两 个 窗口 。 
QT 和 本 地 图 形 界面 默认 有 三 种 属性 标志 : 
. WINDOW_NORMAL: 这 个 标志 允许 用 户 重 设 窗 口 大 小 
- WINDOW_AUTOSIZE: 设 这 个 标志 的 窗口 会 自动 调整 大 小 
. WINDOW_OPENGL: 这 个 标志 开启 OpenGL 的 支持 
QT 还 包含 以 下 属性 标志 : 


. WINDOW_FREERATIO 或 WINDOW_KEEPRATIO: 如 果 设 置 为 WINDOW_FREERATIO， 则 图 像 不 按 其 原 有 比例 调整 


如 果 设 置 为 WINDOW _KEEPRATIO ， 则 图 像 按 其 原 有 比例 调整 。 


“ CV_GUI_NORMAL 或 CV_GUI_EXPANDED: 设置 第 一 个 标志 ， 则 不 包含 状态 栏 和 工具 栏 的 基本 图 形 界 面 。 设 置 第 


标志 ， 则 包含 状态 栏 和 工具 栏 的 高 级 图 形 界 面 。 
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一 如 果 使 用 QT 编译 OpenCV， 所 有 创建 的 窗口 都 默认 为 扩展 界面 ， 但 是 我 们 可 以 添加 CV_GUL NORMAL 标 志 来 使 用 原生 
的 基础 图 形 界 面 。 


默认 状态 下 的 标志 为 WINDOW_AUTOSIZE、WINDOW_KEEPRATIO 和 CV_GUI_EXPANDED。 
当 创 建 多 个 窗口 时 ， 它 们 是 依次 里 在 前 一 个 窗口 上 的 ， 但 仍 可 以 使 用 moveWindow 函 数 把 窗口 移 到 和 桌面 的 任意 位 置 : 
// 移动 窗口 


moveWindow ("Lena", 10, 10); 
moveWindow ("Photo", S520, 10).， 


在 上 述 代码 中 ， 把 Lena 窗 口 移动 到 距离 梨 面 左边 和 顶部 各 10 像 素 的 位 置 ， 把 Photo 这 个 窗口 移动 到 距离 梨 面 左边 ?220 像素 和 
页 部 10 像 素 的 位 置 


// 展示 图 像 
imshow ("Lena", lena).; 

imshow ("Photo", photo); 

// 调整 窗口 大 小 , 仅 当 处 于 非 自 使 用 模式 时 


reslilzeWindow ("Lena", 512, 512): 


用 imshow 消 数 显示 之 前 加 载 的 图 像 后 ， 使 用 resizeWindow 遂 数 把 Lena 窗 口 的 大 小 变 为 512 像 素 的 宽 高 。 这 个 消 数 有 三 个 


参数 分 别 是 window name (窗口 名 ) 、width (宽度 ) 和 height (高 度 ) 。 


~ 这 个 特定 的 窗口 大 小 是 对 图 像 而 言 的 。 但 是 工具 栏 不 包含 在 内 。 只 在 不 设 定 WINDOW_AUTOSIZE 这 个 标志 时 ， 调 整 窗 
口 大 小 的 方法 才 管 用 。 


在 用 waitKey 遂 数 等 待 键盘 输入 之 后 ， 束 可 以 用 destroyWindow 遂 数 移 除 并 且 和 销毁 窗口 ，destroyWindow 消 数 仅 需 要 输入 


窗口 名 这 一 个 参数 。 


WwWaltKev (0) ; 


// 销毁 窗口 
destroyWindow ("Lena")., 
destroyWindow ("Photo")., 


OpenCV 的 destroyAllWindows 遂 数 可 以 一 次 性 移 除 创 建 的 所 有 窗口 。 为 了 展示 这 个 肖 数 怎样 使 用 ， 我 们 在 实例 代码 中 创 
建 了 10 个 窗口 并 且 等 待 键盘 按 下 。 当 用 户 按 下 键盘 任意 一 个 键 ， 所 有 的 窗口 将 被 销毁 。 无 论 如 何 ， 当 应 用 终止 时 ，OpenCy 会 
目 动 销毁 所 有 的 窗口 ， 不 需要 在 应 用 结束 的 时 候 手 动 调用 销毁 窗口 的 遂 数 : 


// 创建 10 个 新 窗口 
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ostringstream SS ; 
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namedWindow(ss.str()).,; 
moveWindow(ss.str(), 20*1, 20*1); 
imshow(ss.str(), photo); 


waitKey(0); 
// 销毁 所 有 窗口 
destroyAllWindows () ; 


代码 运行 的 结果 可 以 分 两 步 在 下 图 中 看 到 。 第 一 个 图 像 显示 了 两 个 窗口 : 


当 有 按键 被 按 下 时 ， 应 用 继续 运行 ， 并 且 绘 制 数 个 窗口 ， 同 时 移动 它们 的 位 置 : 


Photo 1 
Phaote 2 - 
Photo 3 | 
| : 六 而 【 司 | 


Phote 5 
Photoe 8 
Phate 7 


Phoaoto 8 
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Qt 的 用 尸 界面 为 编辑 图 像 提供 了 更 多 的 控制 和 选项 。 这 个 界面 分 为 三 个 主要 区 域 : 


:这 真 蕉 


` 图 像 区 域 


“ 状态 栏 


(x=180, y=205) ~ R:217 G:109 B:135 


工具 栏 从 元 到 石 包含 以 下 按钮 : 


.4 个 控制 平移 的 按钮 


` 恢复 原 大 小 


. 拉 伸 扩大 30 倍 ， 并 且 显 示 标 签 


“缩小 


“ 放大 


* 保存 现 有 图 像 
` 显示 属性 窗口 


在 下 图 中 可 以 更 清晰 地 看 到 这 些 选项 : 


图 像 区 域 显 示 了 一 幅 图 ， 当 在 图 上 右 击 鼠标 时 显示 了 一 个 上 下 文 菜 单 。 可 以 使 用 displayOverlay 函 数 在 这 个 区 域 的 项 部 显示 
受 三 个 参数 : 窗口 名 、 想 要 显示 的 文字 内 容 ， 以 及 以 毫秒 为 单位 的 展示 时 间 。 如 果 时 间 被 设置 为 


之 二 “| 


0， 则 文本 不 会 消失 : 


// 展示 和 履 盖 层 


displayOverlay ("Lena", "Overlay 5secs", S5000); 


Overlay 5secs 
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Panning left (CTRL+arrowLEFT) 


大 Panning right (CTRL+arrowRIGHT) 
Panning up (CTRL+arrowUP) 
Panning Gown (CTRL+arrowDOWN) 
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最 后 状态 栏 在 屏幕 底部 显示 像素 值 ， 以 及 在 图 像 中 的 坐标 位 置 : 


=327, y=10) ~ R:194 G:93 B:97 


(x 


还 可 以 用 状态 栏 显示 信息 ， 比 如 在 上 面 加 上 个 履 盖 层 。 改 变 状 态 栏 信息 的 国 数 叫 作 displaystatusBar。 这 个 为数 和 
displayoverlay 遂 数 的 参数 一 样 ， 包 括 : 窗口 名 、 所 想 要 显示 的 文字 ， 以 及 以 毫秒 为 单位 展示 时 间 。 


| 


status bar 5secs 


女 标 事件 和 滑动 条 在 计算 机 视 党 和 OpenCV 中 非常 有 用 。 通 过 使 用 这 些 控件 ， 用 户 可 以 直接 与 界面 进行 交互 并 改变 其 输入 图 
像 或 变量 的 属性 。 


本 世 将 介绍 如 何在 基本 交互 上 添加 滑动 条 和 鼠标 点 击 事件 。 为 了 正确 的 理解 这 些 操作 ， 下 面 将 创建 一 个 使 用 鼠标 事件 在 图 像 
上 画 绿 圈 ， 并 通过 滑动 条 设置 图 像 模糊 度 的 小 项 目 : 


// 创建 一 个 变量 来 保存 滑动 条 位 置 什 


int blurAmount=15; 


// 滑动 条 的 回调 函数 


static Vold onChange (Int pos, void* userInput).,; 


// 鼠标 的 回调 


static void onMouse( int event, int x, int y, int, void* userInput ) ; 
int main( int argc, const char** argv ) 
// 读 取 图 像 


Mat lena= imread("../lena.jpg"); 


// 创建 窗口 


namedWindow ("Lena").; 


// 创建 一 个 滑动 条 


createTrackbar ("Lena", "Lena", &blurAmount, 30, onChange, &lena); 
setMouseCallback ("Lena", onMouse, &lena); 


// 调用 onChange 来 初始 化 


onChange (blurAmount, &lena).; 
// 等 待 键盘 按 下 以 退出 
waltKev (0) ; 


// 销毁 窗口 


destroywWindow("Dena" ) ; 


return 0; 


接 下 来 开始 分 析 代 码 ! 
首先 创建 一 个 变量 来 存储 背 动 条 位 置 值 ， 然 后 需要 保存 滑动 条 的 位 置 值 方便 其 他 消 数 访问 : 


// 创建 一 个 变量 来 保存 滑动 条 位 置 值 


int blurAmount=15,， 
分 别 通过 OpenCV 的 setMouseCallbac 和 createTrackbar 函 数 定义 滑动 条 和 鼠标 事件 的 回调 : 


// 滑动 条 的 回调 函数 


static void onChange (lint pos, void* userInput); 


// 鼠标 的 回调 


static void onMouse( int event, int x, int y, int, void* userIinput ); 


在 主 消 数 中 读 取 图 像 并 创建 Lena 窗 口 ， 
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| 
// 读 取 图 像 


Mat lena= imread("../lena.jpg"); 


// 创建 窗口 


namedWindow ("Lena").; 


是 时 候 创 建 滑动 条 了 。OpenCV 的 createTrackbar 函 数 通 过 如 下 顺序 参数 可 以 创建 滑动 条 : 


: 一 个 整 型 指针 值 ， 这 个 参数 是 可 选 的 ， 如 果 设 置 这 一 值 ， 创 建 滑动 条 时 初始 位 置 将 在 这 个 位 置 。 
滑动 条 的 最 大 位 置 值 。 

. 滑动 条 位 置 变化 时 的 回调 方法 。 

. 回 传 给 滑动 条 的 用 户 数据 。 不 使 用 全 局 变量 就 可 以 使 用 回 传 数据 。 

// 创建 一 个 滑动 条 


createTrackbar ("Lena'", "Lena", &blurAmount, 30, onChange, 
tklena).; 


创建 好 滑动 条 之 后 ， 接 下 来 加 上 了 上 妃 标 点 击 事件 ， 这 样 用 户 可 以 按 着 鼠标 左 键 绘制 圆圈 。OpenCV 的 setMouseCallback 朱 
数 可 以 实现 此 操作 ， 这 个 立 数 有 如 下 三 个 参数 : 


` 获取 到 鼠标 事件 的 窗口 名 
鼠标 交互 的 回调 函数 
鼠标 操作 时 回 传 的 任何 用 户 数 据 。 在 上 述 例子 中 是 回 传 了 Lena 的 整 张 图 像 : 
setMouseCallback ("Lena", onMouse, &lena).; 
在 主 消 数 的 最 后 ， 使 用 和 滑动 条 相同 的 参数 初始 化 图 像 。 要 执行 初始 化 ， 我 们 仪 需 手动 调用 回调 消 数 ， 然 后 在 关闭 窗口 前 等 
竺 事件 : 


// 调用 onChange 以 初始 化 
onChange (blurAmount, &lena); 


// 等 待 键盘 按 下 以 退出 


walLtKev (0) ; 


// 销毁 窗口 


destroyWindow ("Lena").,; 


滑动 条 的 回调 给 图 像 加 上 了 个 基本 模糊 滤波 ， 其 中 滑动 条 的 值 为 模糊 效果 数值 : 


/ 滑动 条 回调 方法 


static void onChange (int pos, void* userData) 


人 
if (pos <= 0) 
return; 


// 输出 的 辅助 变量 
Mat imgBlur; 


// 获取 输入 图 像 的 指针 


Mat* jmg= (Mat*)userIinput, 


// 应 用 模糊 滤波 


blur (*img, imgBlur, Size(pos, pos)); 


// 展示 输出 


lmshow("Lena", imgBlur).,; 


这 个 方法 通过 pos 变 量 检查 滑动 条 的 值 是 人 否 为 0;， 本 例 不 支持 滤波 ， 因 为 会 产生 错误 。 我 们 无 法 应 用 0 像素 的 模糊 。 
在 检查 完 滑 动 条 值 之 后 ,创建 了 一 个 名 为 ImgBlur 的 空 答 阵 ， 用 来 存储 模糊 结果 。 
为 了 检索 通过 回调 消 数 友 送 的 用 户 数 据 里 的 图 像 ， 必 须 把 void*userData 转 换 成 正确 的 图 像 指针 类 型 Mat*。 


现在 已 经 有 了 适合 模糊 滤波 的 正确 变量 。 模 糊 方 法 为 输入 图 像 提 供 了 一 个 基础 中 值 滤 波 ， 在 上 面 的 例子 中 是 *img， 即 一 个 
输出 的 图 像 。 最 后 一 个 参数 是 需要 模糊 内 核 大 小 (内核 是 用 来 计算 内 核 和 图 像 之 间 的 卷 积 的 小 矩阵 ) ， 在 上 面 的 例子 中 ， 使 用 了 
一 个 pos 大 小 的 方 框 内 核 。 


最 后 ， 只 需要 用 imshow 了 前 数 更 狐 图 像 界 面 。 


鼠标 事件 的 回调 有 五 个 参数 : 第 一 个 参数 定义 了 事件 类 型 ， 第 二 个 和 第 三 个 参数 定义 了 鼠标 的 位 置 ， 第 四 个 参数 定义 了 鼠标 
浚 轮 的 移动 ， 第 五 个 参数 定义 了 用 户 的 输入 数据 。 


鼠标 的 事件 类 型 见 下 表 : 
事件 类 型 摘 述 
EVENT MOUSEMOVE 当 用 户 移动 鼠标 
EVENT LBUTTONDOWN 当 用 户 按 下 左 键 
EVENT RBUTTONDOWN 当 用 户 按 下 右键 
EVENT MBUTTONDOWN 当 用 户 按 下 中 键 
EVENT LBUTTONUP 当 用 户 释放 左 键 
EVENT RBUTTONUP 当 用 户 释 放 右 键 
EVENT MBUTTONUP 当 用 户 释放 中 键 
EVENT LBUTTONDBLCLK 当 用 户 双击 左 键 
EVENT RBUTTONDBLCLK 当 用 户 双击 右键 
EVENT MBUTTONDBLCLK 当 用 户 双击 中 键 
EVENTMOUSEWHEEL 当 用 户 沿 竖 下 方 回 滚动 鼠标 滚 毗 


EVENT MOUSEHWHEEL 当 用 户 沿 水 平方 回 滚 动 鼠 标 滚轮 


下 面 的 例子 仅 响 应 鼠标 左 键 的 点 击 事件 ， 非 EVENT LBUTTONDOWN 的 响应 事件 都 会 被 过 滤 。 过 滤 掉 其 他 事件 后 ， 会 得 到 
输入 的 图 像 ， 如 滑动 条 回调 ， 然 后 使 用 OpenCV 函 数 在 图 像 中 国 一 个 圆 : 


static Vold onMouse( int event, int x, int y, int, void* userInput ) 


人 


1f( event != EVENT LBUTTONDOWN  ) 


return,; 


// 取得 输入 图 像 的 指针 


Mat* jmg= (Mat*)userIinput,; 


// 绘制 圆 型 
circle(*img, Point(x, y), 10, Scalar(0,255,0), 3); 


// 调用 模糊 图 像 方法 


onChange (blurAmount, img); 


3.5 ”在 用 户 界 面 上 添加 近 乌 


上 一 证 我 们 学 习 了 如 何 创建 基本 界面 或 QT 界面 ， 并 且 使 用 鼠标 和 滑动 条 进行 交互 ， 但 是 也 可 以 通过 创建 不 同类 型 的 按钮 来 
著作。 


避嫌 知 仅 可 用 于 QT 窗口 。 

支持 的 按钮 类 型 有 以 下 几 种 : 

:点击 (push) 按键 

. 复 选 框 (checkbox) 

: 单 选 按钮 (radiobox) 

按钮 只 出 现在 控制 面板 上 。 每 一 个 程序 中 的 控制 面板 是 独立 窗口 ， 在 上 面 就 可 以 添加 按钮 和 滑动 条 。 

可 以 通过 点 击 工具 栏 最 后 一 个 按钮 ， 或 在 QT 窗口 右键 选择 “显示 属性 ”窗口 ， 抑 或 通过 ctrl+ P 快 捷 键 来 显示 控制 面板 。 


接 下 来 创建 按钮 的 一 个 基本 示例 。 这 上段 代码 比较 长 ， 首 先 分 析 主 立 数 ， 然 后 依次 单独 分 析 回 调 以 便 理解 它们 : 


Mat img; 

bool applyGray=false,; 
bool applyBlur=false; 
bool applySobel=false,; 
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人 
// 读 取 图 像 


img= imread("../lena.jpg"); 


// 创建 窗口 


namedWindow ("Lena").:; 


// 创建 按钮 
EECERUEECODLTBUIOZ DIDOCSLLOaRR .NULbD,: RE CHECRROL, MYs 


createButton ("Gray",grayCallback,NULL,QT RADIOBOX, 0); 
createButton{("RGB",bgrCallback,NULL,QT RADIOBOX, 1); 


createButton("Sobel",sobelCallback,NULL,QT PUSH BUTTON, 0); 


// 等 待 键盘 按 下 以 退出 
walLtKev(0) ; 


// 销毁 窗口 


destroyWindow ("Dena' ) ; 


return 0; 


下 面 将 会 应 用 三 种 类 型 : 模糊 滤波 、 索 贝尔 滤波 、 彩 色 到 灰 度 图 转换 。 这 些 过 滤器 是 可 选 的 ， 用 户 可 以 用 创建 的 按钮 选择 它 
们 中 的 任意 一 个 。 为 了 获取 滤波 的 状态 ,我们 创建 了 三 个 全 局 布尔 值 变 量 : 


bool applyGray=false; 
bool applyBlur=false,; 
bool applySobel=false; 


在 加 载 完 图像 和 创建 窗口 之 后 ， 在 主 尔 数 中 使 用 createButton 方 法 创建 每 个 按钮 。 
OpenCV 中 有 三 种 按钮 类 型 ， 具 体 如 下 : 

-QT_CHECKBOX 

-QT_RADIOBOX 

-QT_ PUSH _ BUTTON 

每 个 按钮 有 5 个 参数 ， 如 下 所 示 : 

` 按钮 名 称 


` 回调 子 数 


:一 个 回调 用 户 数据 的 指针 


- 复 选 框 和 单 选 按钮 默认 的 初始 化 类 型 
然后 ， 创 建 了 一 个 模糊 复 选 框 按 钮 ， 两 个 用 于 色彩 变换 的 单 选 按钮 ， 以 及 一 个 系 贝 尔 滤 波 按钮 


// 创建 按钮 
createButton("Blur", blurCallback, NULL, QT CHECKBOX, 0); 


createButton("Gray",grayCallback,NULL,QT RADIOBOX, 0); 
createButton ("RGB",bgrCallback,NULL,QT RADIOBOX, 1); 


createButton("Sobel",sobelCallback,NULL,QT PUSH BUTTON, 
0)', 


这 是 主 消 数 最 重要 的 部 分 。 接 下 来 将 探讨 回调 销 数 。 每 一 个 回调 调用 applyFilters 销 数 改 变 滤波 的 状态 变量 ， 并 添加 触 友 输 
入 图 像 的 滤波 效果 。 


Vold grayCallback (int state, void* userData) 


{ 
applyGray= 七 YUe ; 
applyFilters () ; 


void bgrCallback (int state, void* userData,) 


{ 
applyGray= false; 
applyFilters(); 


Vold blurCallback (int state, void* userData,) 


{ 
applyBlur= (bool) state,; 
applyFilters(); 
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Vold sobelCallback (int state, void* userData) 


人 
applySobel= !apPLySobeJl; 
applyFilters(); 


applyFilters 函 数 检 查 每 个 滤波 的 状态 变量 : 


void app1lLyFilters() { 
Mat esSuUJ]t ; 
lmg.copyTo (zeSult) ; 
if (applyGray) { 
cvtColor(result, result, COLOR BGR2GRAY); 


} 
if (applyBlur){ 
blur (result, result, Size(5,5)):; 


| 
if (app1LlySobel) { 
Sobel (result, result, CV 8U, 1, 1); 


| 


imshow("Lena", result). 


使 用 了 cvtColor 消 数 可 以 实现 彩色 到 灰 度 的 转换 ， 它 包含 三 个 参数 : 输入 图 像 、 输 出 图 像 、 色 彩 空 间 转 换 类 型 。 
最 常用 的 色彩 空间 转换 类 型 如 下 : 

. RGB 或 BGR 转 成 灰 度 (COLOR_RGB2GRAY，COLOR_BGR2GRAY) 

. RGB 或 BGR 转 成 YcrCb (或 YCC) (COLOR_RGB2YCrCb，COLOR_BGR2YCrCb) 

. RGB 或 BGR 转 成 HSV (COLOR_RGB2HSV，COLOR_BGR2HSV) 

. RGB 或 BGR 转 成 Luv (COLOR_RGB2Luv，COLOR_BGR2Luv) 

. 灰 度 转 成 RGB 或 BGR (COLOR_GRAY2RGB ，COLOR_GRAY2BGR) 

可 以 友 现 这 举人 代码 极 易 记忆 。 


人 
Ce 4 


一 需要 牢记 OpenCV 默 认 的 是 BGR 格 式 ， 而 且 在 色 值 转换 为 灰 度 时 RGB 和 BGR 的 色彩 空间 转换 是 不 同 的 。 一 些 开 发 人 员 认 


为 ， 灰 度 等 于 R+G+B/3, 但 最 理想 的 灰 度 值 被 称 为 上 照度， 计算 公式 是 0.21*R+0.72*G+0.07*B。 


模糊 滤波 器 在 上 一 节 已 经 描述 过 了 。 如 果 applySobel 的 值 为 真 ， 最 终 会 应 用 索 贝 尔 滤 波 。 


索 贝 尔 滤波 是 一 个 使 用 索 贝尔 算 子 的 图 像 导 数 ， 常 用 于 边缘 检测 。OpenCV 人 允许 创建 不 同 内 核 大 小 的 不 同 导数 ， 但 最 常见 的 
是 计算 x 或 y 导 数 的 3x3 内 核 。 


最 重要 的 几 个 索 贝 尔 参 数 如 下 所 示 : 

` 输入 图 像 

` 输出 图 像 

. 输出 图 像 的 深度 (CV_8U, CV_16U, CV_32F, CV_64F) 
. x 导数 的 顺序 

“y 导 数 的 顺序 


内 核 大 小 (默认 为 3) 


` 使 用 以 下 的 参数 创建 3X3 的 内 核 和 x 一 阶 导 数 : 


Sopel linputs outputs CV 8Uy ly Qs 


` 使 用 了 下 面 的 参数 创建 y 阶 导数 : 


SODBL(ILNEUG.. GREAT BU 0 BS 


在 上 面 的 例子 中 ， 使 用 的 x 和 y 导 数 同时 履 盖 输入 值 : 


Sobel (result, result, CV 8U, 1, 1); 


x 和 和 y 导 数 的 输出 值 如 下 图 所 示 : 
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3.6 支持 OpenGL 


OpenCyV 文 持 OpenGL。OpenGL 是 一 个 以 显卡 为 标准 的 图 形 库 。OpenGL 人 多 许 绘制 从 二 维 到 复杂 三 维 的 场景 。 
OpenCV 在 一 些 任务 中 需要 展示 3D 空 间 ， 所 以 需要 支持 OpenGL。 调 用 namedWindow 了 水 数 创建 窗口 时 ,设置 


WINDOW_OPENGL 标 记 束 可 以 支持 OpenGL。 


下 面 的 代码 创建 一 个 OpenGL 支 持 窗口 ， 并 且 绘 制 一 个 显示 网 络 报 像 头 帧 的 旋转 平面 : 


Mat frame; 
GLfloat angle= 0.0; 
GLuint texture,; 


VideoCapture camera; 
int loadTexture() { 
if (frame.data==NULL) return -1; 


glGenTextures(l1, &texture); 
glBindTexture( GL TEXTURE 2D, texture ); 
glTexParameteri (GL TEXTURE 2D,GL TEXTURE MAG FILTER,GL LINEAR); 
glTexParameteri (GL TEXTURE 2D,GL TEXTURE MIN FILTER,GL LINEAR); 
glPixelStorei (GL UNPACK ALIGNMENT, 1); 


glTexImage2D (GL TEXTURE 2D, 0, GL RGB, frame.cols, frame.rows,do0, 
GL BGR, GL UNSIGNED BYTE, frame.data); 


return 0; 


void on opengl (void* param) 
{ 
glLoadIdentity () ; 
// 加 载 帧 纹理 
glBindTexture( GL TEXTURE 2D, texture ); 
// 绘制 前 的 旋转 平面 
dlnotatet tr anole, Lor DE LM 1 
// 创建 平面 并 设置 纹理 坐标 
glBegin (GL QUADS)., 

// 起 始点 与 坐标 纹理 
glTexCoord2d(0.0,0.0);，; 
glVertex2d(-1.0,-1.0);，; 

// 第 二 点 与 坐标 纹理 
glTexCoord2d(1.0,0.0); 
glVertex2d(+1.0,-1.0); 

// 第 三 点 与 坐标 纹理 


dlTexCoord2d{(1,0,1.0); 
glVertex2d(+1.0,+1.0); 

// 最 终点 与 坐标 纹理 
dlTexCoord2d.(0.0,1,.0); 
glVertex2d(-1.0,+1.0);，; 
glEnd () ; 


int malin( int argc, const char** argV ) 


// 打开 网 络 摄像 头 


camera .open (0) ; 
if(!camera.isopened() ) 
return -1; 


// 创建 新 窗口 
namedWindow ("OpenGL Camera", WINDOW OPENGL) ; 


// 开启 纹理 
glEnable( GL TEXTURE 2D ) ; 


setOpenGlDrawCallback ("OpenGL Camera", 


while (waitKey (30) !='qgq')f{ 
Camera >> frame,; 
// 创建 第 一 个 纹理 
loadTexture(),; 
updateWindow ("OpenGL CameLra" 1) ; 
angle =angle+4,; 


// 销毁 窗口 
destroyWindow ("OpenGL CameLa" ) ; 


return 0; 


} 


接 下 来 分 析 上 述 代 码 : 


首要 任务 是 创建 所 需 的 全 局 变量 ， 包 括 存储 视频 采集 ， 保 存 位 置 ， 控 制 角 平面 动画 ,以 及 OpenGL 纹 理 : 


Mat frame; 

GLfloat angle= 0.0;，; 
GLuint texture,; 
VideoCapture camera; 


在 主轴 数 中 ， 必 须 创 建 摄 像 机 去 担 摄 并 检 款 摄像 机 帧 : 


camera .opPen (0) ; 
if (!camera.isOpened()) 
return -1; 


如 果 摄 像 机 开启 成 功 ， 开 始 使 用 WINDOW_OPENGL 标 记 来 创建 支持 OpenGL 的 窗口 : 


// 创建 新 窗口 


on opengl) ; 


namedWindow ("OpenGL Camera", WINDOW OPENGLD) ; 


在 本 例 中 ， 想 要 在 一 个 平面 上 绘制 来 目 摄像 机 的 图 像 ， 必 须 局 用 OpenGL 的 纹理 : 


// 开启 纹理 
glEnable( GL TEXTURE 2D ) ; 


现在 ， 我 们 已 经 准备 好 用 OpenGL 来 绘制 窗口 ， 但 是 首先 必须 像 传统 OpenGL 应 用 一 样 设 置 绘制 OpenGL 的 回调 函数 ， 可 用 
OpencCyv 的 setOpengLDrawCallback 阔 数 来 实现 ， 它 包含 窗口 名 和 回调 函数 两 个 参数 。 


setOpenGlDrawCallback ("OpenGL Camera", 


在 定义 了 OpenCV 窗 口 和 回调 消 数 之 后 ， 需 要 创建 一 个 循环 去 加 载 纹理 ， 并 通过 调用 OpenGL 绘 制 回 调 函 数 更 新 窗口 内 容 ; 


最 后 ， 需 要 更 新 角度 的 位 置 。 


使 用 OpenCV 辆 数 更 新 窗口 内 容 ， 参 数 为 窗口 名 。 


on opengl); 


while(waitKey(30) !='q')f 
Camera >> frame,; 
// 创建 第 一 个 纹理 
loadTexture () ; 
updateWindow ("OpenGL Camera"),; 


angle =angle+4; 


按 下 q 键 退出 循环 。 

在 编译 应 用 实例 之 前 ， 需 要 定义 loadTexture 遂 数 和 on_opengl 回 调 冰 数 。 

loadTexture 函 数 将 Mat 的 帧 转换 为 将 要 加 载 并 会 在 每 个 回调 都 绘制 到 的 OpenGL 纹 理 图 。 在 将 图 像 加 载 为 纹理 乙 前 ， 需 要 
检查 数据 变量 对 象 是 人 否 为 空 ， 以 确保 帧 息 阵 包含 数据 : 

if (frame.data==NULL) return -1; 


如 果 帧 矩 孟 中 有 数据 ， 融 可 以 创建 OpenGL 纹 理 绑 定 ， 并 且 设 置 一 个 线性 值 作 为 OpenGL 纹 理 参 数 : 


glGenTextures(l1, &texture),; 


glBindTexture( GL TEXTURE 2D, texture ); 
glTexParameteri (GL TEXTURE 2D,GL TEXTURE MAG FILTER,GL LINERAR) ; 


glTexParameteri1 (GL TEXTURE 2D,GL TEXTURE MIN FILTER,GL LINEAR); 


现在 需要 定义 如 何 存 储 答 阵 中 的 像素 以 及 如 何 用 OpenGL 的 glTexlmage2D 水 数 创建 像素 。 一 个 需要 着 重 注意 的 点 
是 ，OpenGL 使 用 RGB 格 式 而 OpenCV 默 认 使 用 BGR 格 式 ， 需 要 在 这 个 消 数 里 正确 地 设置 它们 : 


glPixelStorei (GL UNPACK ALIGNMENT, 1); 
glTexImage2D (GL TEXTURE 2D, 0, GL RGB, frame.cols, frame.rows,0, GL 


BGR, GL UNSIGNED BYTE, frame.data),; 


return 0 ; 
现在 只 需要 主线 程 调 用 updateWindow 六 数 时 完成 绘制 平面 的 每 一 个 回调 。 使 用 单 用 的 OpenGL 了 为 数 ， 然 后 加 载 OpenGL 


矩阵 标识 来 重 置 之 前 所 有 变化 : 
9LLoadIdent1ILtyY () ; 


将 纹理 帧 写 入 内 存 : 


// 加 载 帧 纹理 


glBindTexture( GL TEXTURE 2D, texture ) ; 


在 绘制 平面 之 前 ， 将 所 有 的 转换 应 用 在 场景 中 ， 在 代码 中 ， 我 们 将 会 在 (1，1，1) 轴 上 旋转 平面 : 


// 绘制 前 的 旋转 平面 


glRotatef( angle, 1.0f£f, 1.0£f, 1.0f ); 


现在 设置 了 正确 场景 绘制 平面 ， 所 以 将 使 用 glBegin (GL QUADS) 绘制 四 边 的 面 : 


// 创建 平面 并 设置 纹理 坐标 
glBegin (GL QURADS ) ; 


使 用 了 (0，0) 为 中 心 绘制 一 个 平面 。 然 后 ， 使 用 glTexCoord2d 和 glVertex2d 孙 数 定义 纹理 坐标 的 顶点 位 置 : 


// 起 始点 与 坐标 纹理 
glTexCoord2d (0.0,0.0); 
glVertex2d(-1.0,-1.0);，; 

// 第 二 点 与 坐标 纹理 
glTiTextoorda2dll ,00.0 
glVertex2d(+1.0,-1.0).; 

// 第 三 点 与 坐标 纹理 
glTexCoord2d(1.0,1.0); 
glVertex2d(+1.0,+1.0); 

// 最 终点 与 坐标 纹理 
ETerCooroadg .Le 0 
glVertex2d(-1.0,+1.0); 

glEnd () ; 


~ 这 段 ObenGL 的 代码 虽然 是 过 时 的 ， 但 是 它 对 于 我 们 理解 OpenCV 与 OpenGIL 如 何 结合 来 说 是 很 有 益处 的 ， 同 时 为 我 们 免 
去 了 阅读 复杂 代码 的 麻烦 。 想 了 解 最 新 的 OpenGL 相 关 知 识 ， 推 荐 阅读 Packt 出 版 社 出 版 的 《Inhttoduction to Modern OpenGL》 一 
书 。 


运行 结果 如 下 图 所 示 : 


DQpenGL Gamera 


在 本 章 中 ， 我 们 学 习 了 如 何 使 用 OpenGL 创 建 不 同类 型 显示 图 像 或 三 维 界面 的 用 户 界 面 。 学 习 了 如 何 创建 滑动 条 和 按钮 ， 以 
及 如 何 绘 制 三 维 界 面 。 同 时 还 学 会 了 一 些 基本 图 像 处 理 渡 小 器 。 


在 接 下 来 的 草书 中 ， 我 们 将 学 习 如 何 运 用 所 学 到 的 图 形 用 尸 界面 去 构建 一 个 完整 的 照片 工具 应 用 程序 ， 还 将 学 习 如 何 对 输入 
图 像 使 用 多 个 滤波 。 


在 上 一 草 ， 我 们 学 习 了 使 用 QT 和 本 地 库 创 建 OpenCV 用 尸 界 面 的 基础 知识 及 高 级 OpenGL 用 尸 界面 的 使 用 方法 。 了 解 了 基 
本 的 色彩 变换 和 滤波 器 ， 这 些 帮 助 我 们 创建 了 第 一 个 应 用 程序 。 


本 章 将 会 讨论 以 下 主要 内 容 : 

直方 图 和 直方 图 均衡 化 

` 查找 表 

均值 滤波 (blur) 和 中 值 滤波 (median blur) 
. 高 斯 Canny 滤 波 

-图像 色彩 均衡 化 

理解 图 像 类 型 之 间 的 转换 


在 学 习 了 OpenCcV 和 用 户 界面 的 基础 之 后 ， 接 下 来 将 在 本 章 建 立 第 一 个 完整 的 应 用 程序 ， 以 及 一 个 具有 以 下 功能 的 基本 图 像 
工具 : 


“ 计 彰 并 绘制 一 个 直方 图 
` 直方 图 均衡 化 


. LOMO 相 机 的 效果 


这 个 应 用 程序 将 教 你 如 何 从 头 创 建 一 个 完整 的 项 目 ， 并 帮 有 你 理解 直方 图 的 概念 。 本 章 将 揭示 如 何 使 彩色 图 像 直 万 图 均衡 化 ， 
如 何 通过 组 合 滤波 器 和 得 找 表 创建 两 种 不 同 的 效果 。 


4.1 生成 CMake 脚 本 文件 


在 开始 创建 源 文 件 之 前 ， 首 先 需 要 生成 CMakeLists.txt 文 件 ， 用 来 编译 、 构 建 项 目 并 生成 可 执行 文件 。 以 下 cmake 脚 本 虽然 
简单 ， 但 足以 编译 并 生成 可 执行 文件 : 


cmake minimum required (VERSION 2.6) 
cmake policy (SET CMP0012 NEW) 


PROJECT (Chapter4 Phototool) 


# 需要 的 OpenCV 版 本 
FIND PACKAGE ( OpenCV 3.0.0 REQUIRED ) 


include directories(${OpenCV INCLUDE DIRS)}) 
link directories(${OpenCV LIB DIR}) 


ADD EXECUTABLE( ${PROJECT NAME} main.cpp ) 
TARGET LINK LIBRARIES( ${PROJECT NAME} ${OpenCV LIBS} ) 


接 下 来 分 析 上 述 脚本 文件 。 


第 一 行 表示 生成 项 目 所 需 的 最 低 cMake 版 本 ， 第 二 行 设置 CMP0012 策 略 变 量 ， 人 允许 识别 数字 和 布尔 常量 ， 并 且 移 除 相 关 


CMake 和 警告 


cmake minimum required (VERSION 2.6) 
cmake policy (SET CMP0012 NEW) 


之 后 ， 定 义 了 项 目 名 称 : 
PROJECT (Chapter4 Phototool) 

引用 OpenCV 库 的 第 一 件 事 束 是 找到 库 ， 并 通过 MESSAGE 功 能 ， 显 示 OpenCV 库 的 版 本 消息 。 
# 需要 的 OpenCV 版 本 


FIND PACKAGE( OpenCV 3.0.0 REQUIRED ) 
MESSAGE ("OpenCV version : ${0OpenCV VERSION}") 


如 果皮 现 了 最 低 3.0 版 本 库 ， 融 可 以 将 头 文件 和 库 文 件 引 用 到 我 们 的 项 目 中 


include directories (${1OpenCV INCLUDE DIRS}) 
link directories(${OpenCV LIB DIR}) 


现在 添加 需要 编译 的 源 文件 ; 为 了 使 源 文件 能 够 链接 到 OpenCV 库 ， 可 以 用 项 目 名 字 作为 可 执行 文件 的 名 称 ， 用 main.cpp 
作为 唯一 源 文件 名 称 : 


ADD EXECUTABLE( ${PROJECT NAME} main.cpp ) 
TARGET LINK LIBRARIES( ${PROJECT NAME} ${OpenCV LIBS} ) 


4.2 创建 图 形 用户 界 面 


在 开始 图 像 处理 算 法 之 前 ， 要 先 创 建 应 用 程序 的 主 用 户 界面 。 并 使 用 一 个 基于 QT 的 用 户 界面 创建 按钮 。 
这 一 应 用 程序 通过 一 个 输入 人 参数 来 加 载 待 处 理 图 像 ， 并 需要 创建 下 列 四 个 按钮 : 

Show histogram 〈 显 示 直 方 图 ) 

.Equalize histogram (直方 图 均衡 化 ) 

. Lomography effect (LOMO 效 果 ) 

* Cartoonize effect (卡通 效果 ) 


在 下 图 中 可 以 看 到 四 个 结果 : 


haptird PHITteal SStinigs 


Equallzn hisicgram | Leomagraphy sffoct | Cariontea effect 


接 下 来 开 上 友 项 目 吧 。 首 先 ， 要 引用 所 需 的 OpenCV 头 文件 。 然 后 定义 一 个 Img 和 矩阵 来 存储 输入 图 像 ， 并 使 用 新 的 命令 行 解析 
器 创建 一 个 常量 字符 串 ， 这 个 命令 行 解析 器 仪 在 OpenCyV 3.0 中 可 用 。 在 这 个 常量 中 ， 只 人 允许 使 用 两 个 输入 参数 : 帮助 命令 和 输 
入 图 像 : 


// OpenCV 头 文件 
#include "opencv2/core/utility.hpp" 
#include "opencv2/imgproc.hpp'" 
#include "opencv2/highgui .hpp" 
usSing namespace cv; 
// OpenCV 的 命令 行 解析 器 函数 
// keys 通过 命令 行 解析 器 录入 
const char* keys = 
{ 
"{help h usage ? | | print this message}'" 
"{@image | | Image to process}" 


main 函 数 从 命令 行 解析 器 类 型 变量 开始 。 然 后 ， 设 置 指令 并 输出 帮助 信息 。 接 下 来 的 命令 行 指导 建立 最 终 可 执行 文件 的 帮 


int maln( int argc, const char** argv ) 


{ 


CommandLinepParser parser (argc, argv, keys),; 
parser.about ("Chapter 4. PhotoTool v1.0.0").,; 


// 是 否 需要 帮助 信息 
lf (parser.has ("help")) 


{ 


parser.printMessage () ; 
reCurn Vs 


如 果 用 户 不 需要 帮助 说 明 ， 那 么 需要 在 字符 串 变 量 imgFile 中 得 到 图 像 的 文件 路 径 ， 并 检查 所 有 必要 参数 是 否 已 添加 到 
parser.check () 国 数 : 


String imgFile= parser.get<String>(0); 


// 检查 参数 是 否 被 正确 解析 


if (!parser.check()) 


{ 


parser.printErrors(); 
ET 0 


现在 可 以 用 imread 遂 数 来 读 取 图 像 文 件 ， 然 后 用 namedWindow 遂 数 来 创建 之 后 展示 输入 图 像 的 窗口 : 


// 加 载 图 像 进 行 处 理 
img= imread (imgFile).,; 
// 创建 窗口 


namedWindow ("Input").,; 


图 像 加 载 且 窗口 创建 之 后 ， 还 需要 在 界面 上 添加 四 个 按钮 ， 并 把 它们 链接 相应 的 回调 遂 数 。 每 个 回调 消 数 都 在 源码 中 定义 
了 ， 在 本 章节 后 面 的 内 容 中 ， 将 对 它们 进行 分 析 。 下 面 用 createButton 闵 数 来 创建 按钮 ， 并 设置 按钮 风格 为 
QT PUSH BUTTON: 


// 创建 用 户 界 面 按 钮 

createButton("Show histogram", showHistoCallback, NULL, QT PUSH 
BUTTION:. Qh: 

createButton ("Equalize histogram", equalizeCallback, NULL, QT 
PUSH BUTTON, 0) ; 

CreateButton ("DLomography effect", lomoCallback, NULL, QT PUSH 


BUDTTON. DY) 
createButton("Cartonize effect", cartoonCallback, NULL, QT PUSH 
BUTTON ，01) ; 


为 了 完成 main 遂 数 ， 需 要 展示 输入 的 图 像 并 等 待 一 个 按键 事件 来 结束 应 用 程序 : 


// 显示 图 像 

imshow ("Input", img); 
waitKey(0); 

return 0;，; 


现在 ， 束 只 剩 回 调 浮 数 了 ， 人 在 接 下 来 的 部 分 ， 将 会 定义 并 摘 述 每 一 个 回调 函数 。 


4.3 ”绘制 直方 图 


直方 图 是 表示 变量 分 布 的 统计 报告 图 。 它 可 以 让 我 们 理解 密度 估计 和 数据 的 概率 分 布 。 通 过 将 整个 学 围 的 数据 区 间 分 成 固定 
数量 的 色 值 ， 然 后 计算 落 入 到 各 个 色 值 的 个 数 来 创建 直方 图 。 


如 果 将 直方 图 的 概念 应 用 到 图 像 中 ， 理 解 起 来 看 似 很 复杂 ， 但 其 实 很 简单 。 在 一 张 灰 度 图 像 中 ， 变 量 值 可 能 是 0~255 学 围 中 
的 任意 一 个 灰 度 值 ， 密 度 束 是 指 在 这 幅 图 中 灰 度 值 像 素 点 的 个 数 。 这 意味 着 不 得 不 统计 灰 度 值 为 0 的 像素 点 的 个 数 和 为 1 的 像素 


点 的 个 数 ， 等 等 。 


显示 输入 图 像 的 直方 图 用 的 是 showHistoCallback 回 调 六 数 。 这 个 函数 计算 每 个 图 像 通 道 的 直方 图 ， 并 在 一 个 新 的 图 像 中 显 
示 每 个 直方 图 通道 的 结 


接 下 来 看 下 面 的 代码 : 


Vold showHistoCallback (int state, void* userData) 
{ 

// 把 图 像 分 割 成 3 个 通道 BRG 

Vector<Mat> Ee 

split!( img, bgr ); 


// 创建 有 256 个子 区 间 的 直方 图 
// 值 的 可 能 数量 为 [ 0..255 ] 
int numbins= 256 ; 


/// 设置 范围 (B.G.R)， 最 后 一 个 值 不 包含 
float range[] = { 0, 256  ; 
const float* histRange = { range }; 


Mak :bhatt wliaty -rr higts 


calcHist( &bgr[0], 1, 0, Mat(), b hist, 1, &numbins, 
&histRange ) ; 

we 
&histRange ) ; 

calcHistl EDgz IE 工 Op Matlls hiet; 2 EDUmD1LTB:， 
&histRange ) ; 


// 绘制 直方 图 

// 将 为 每 个 图 像 通道 绘 线 

int width= 512,，; 

int height= 300; 

// 以 灰色 为 基底 创建 图 像 

Mat bE racel neigqht; width; CV 8UC3, iScalar(20, 20;20) 023 


// 从 0 到 图 像 的 高 度 归 一 化 直方 图 

normalize(b hist, b hist, 0, height, NORM MINMAX ) ; 
normalize(g hist, g hist, 0, height, NORM MINMAX ) ; 
normalizel(r hist, r hist, 0, height, NORM MINMAX ) ; 


int binSstep= cvRound( (float)width/ (float)numbins).; 
for( int i=1; i< numbins; i++) 


人 
line( histImage, 
Point( binSstep*(i-1), height-cvRound(b hist.at<float>(i-1) ) )， 
Point( binStep*(1), height-cvRound(b hist.at<float>(1i) ) ), 
Scalar{(255,0,0)); 
line( histImage, 
Polnt ( binStep* (i-1), height-cvRound(g hist.at<float>(i-1) ) ), 
Point( binStep*(1), height-cvRound(g hist.at<float>(1i) ) ), 
Soalar(0.255,0)1)3 
line( histImage, 
Point( binSstep*(i-1), height-cvRoundl(r hist.at<float>(i-1) ) ), 
Point( binStep*(1), height-cvRound(r hist.at<float>(1i) ) ), 


Scalar(0,0,255)):; 


} 


imshow ("Histogram", histImage).,; 


接 下 来 试 荐 去 理解 如 何 提 取 每 个 通道 的 直方 图 ， 并 绘制 它们 。 


首先 ， 需 要 创建 三 个 处 理 输入 图 像 通 道 的 粉 阵 。 使 用 向 量 型 变量 存储 每 一 个 通道 值 ， 并 使 用 OpenCV 的 split 淫 数 将 输入 图 像 


// 分 割 BRG 图 像 
vector<Mat> bgr; 
oii ma: Doar ks 


接 下 来 将 定义 直方 图 的 色 信 数 ; 在 我 们 的 例子 中 ， 每 个 色 值 可 能 是 像素 值 : 


int numbins= 256 ; 


现在 需要 为 变量 定义 取 值 学 围 ， 并 创建 3 个 仓储 和 直方 图 的 矩阵 : 
/// 设置 范围 (B,，G, R) 
float range[] = { 0, 256 } :; 


const float* histRange = { range }; 
Na Hi Tet Hw IsG,. Tigti 


这 时 可 以 使 用 DpenCV 的 calcHist 函 数 来 计算 每 个 直方 图 。 这 个 国 数 有 以 下 几 个 参数 : 
` 输入 的 图 像 ， 上 面 的 例子 是 将 一 个 图 像 通道 存储 在 bgr 向 量 中 。 

: 计算 直方 图 需要 的 输入 图 像 个 数 ， 上 面 的 例子 只 使 用 了 一 个 输入 图 像 。 

“ 用 来 计算 直方 图 的 通道 数组 的 维 数 ， 上 面 的 例子 使 用 的 是 0。 


“ 可 选择 的 掩 码 和 矩阵 。 


存储 已 计算 直方 图 的 变量 。 
“ 直方 图 维 数 (图像 ， 即 一 个 灰 度 平面 取 值 空间 的 维 数 ) ， 上 面 的 例子 使 用 的 是 1。 
“ 用 于 计算 的 色 值 数 ， 上 面 的 例子 中 ， 每 个 像素 值 使 用 256 个 色 值 。 

输入 变量 的 取 值 范围 ， 在 上 面 的 例子 中 ， 可 能 像素 值 的 范围 是 0~255。 


每 个 通道 的 calcHist 国 数 代码 如 下 所 示 : 


calcHist( &bgr[0j，1L1，0，Mat()，b hist, 1, &numbins, &histRange ) ; 
SalLenlett Bayr[lily dr 0 Ma Hig, Le Sully 
ghistRange ); 
Sealenrstel hyeLi2aly tr DW Matlyy Meo, LT Phumbrnyg, 


&histRange ) ; 


在 计算 每 个 通道 的 直方 图 之 后 ， 需 要 将 直方 图 绘制 出 来 并 展示 给 用 户 。 为 了 做 到 这 点 ， 需 创建 一 个 大 小 为 512x300 像 素 的 
彩色 图 像 : 
// 绘制 直方 图 
// 为 每 个 通道 绘 线 
int width= 512 ， 


IE MeLgnts: S00 
// 以 灰色 为 基底 创建 图 像 


Mat histImage( height, width, CV 8UC3, Scalar (20,20,20) ); 
在 图 像 上 绘制 直方 图 值 之 前 ， 需 要 将 和 直方 图 和 埠 阵 归 一 化 ， 泡 围 为 从 最 小 值 0 到 最 大 值 ， 在 上 面 的 例子 中 ， 值 是 图 像 高 度 即 
300 像 素 : 


// 从 0 到 图 像 的 高 度 归 一 化 直方 图 

normalize(b hist, b hist, 0, height, NORM MINMAX ) ; 

normalize(g hist, g hist, 0, height, NORM MINMAX ) ; 

normalize(r hist, r hist, 0, height, NORM MINMAX ); 

现在 ， 需 要 从 第 0 个 色 值 到 第 1 个 色 值 绘制 一 条 线 ， 以 此 类 推 。 下 面 需 要 计算 出 每 个 色 值 乙 间 像素 点 的 数量 ， 然 后 通过 宽度 
除 以 色 值 数 的 方式 得 到 binStep 变 量 。 


下 面 的 代码 绘制 从 i-1 到 i 的 水 平 线 段 ， 垂 直 位 置 是 i 对 应 的 直方 图 的 值 ， 并 用 彩色 通道 表示 法 来 绘制 : 


int binStep= cvRound( (float)width/ (float)numbins) ; 
for( int 1LI=1; i< numbins; I++) 
| 
line( histImage, 
Polnt ( binStep* (1i-1), height-cvRound(b hist.at<float>(i-1) ) ), 
Point( binStep*(i), height-cvRound(b hist.at<float>(i) ) ), 
Scalar (255,0,0})}; 
line( histImage, 
Point( binSsStep*(1-1), height-cvRound(g hist.at<float>(i-1) ) ), 
Polnt ( binSstep*(i), height-cvRound(g hist.at<float>(i) ) ), 
Scalar(0,255,0)).， 
line( histIimage, 
Point( binSstep* (i-1), height-cvRound(r hist.at<float>(i-1) ) ), 
Polnt ( binStep*(1), height-cvRoundl(r hist.at<float>(i) ) ), 
Scalar(0,0,255})}; 


最 后 ， 使 用 imshow 函 数 来 展示 直方 图 图 像 : 
limshow ("Hlistogram", histImage)., 


lena.png 图 像 是 最 终结 果 ， 见 下 图 : 
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在 本 节 中 ， 我 们 将 学 习 如 何 均 衡 化 一 幅 彩 色 图 像 。 图 像 均 衡 化 和 直方 图 均衡 化 尝试 获取 一 个 值 均 久 分布 的 直方 图 。 均 衡 化 的 


结果 是 图 像 对 比 度 增 高 。 均 衡 化 允许 局 部 低 对 比 度 区 域 获 得 高 对 比 度 ， 扩 展 党 用 的 亮度 。 


这 种 方法 对 于 太 亮 、 太 上 暗 或 者 前 后 景 磊 别 太 小 的 图 像 非常 有 用 。 使 用 直方 图 均衡 ， 可 以 提高 对 比 度 ， 优 化 曝光 不 足 或 过 度 曝 
光 细 节 。 这 种 拉 术 对 于 医学 影像 非常 有 用 ， 例 如 X- 射 线 。 


然而 ， 这 个 方法 有 两 个 主要 的 缺点 : 增加 了 背景 噪声 和 减少 有 用 信号。 


我 们 可 以 在 下 图 中 看 到 均衡 化 效果 ， 并 能 看 到 直方 图 是 怎样 变化 的 ， 以 及 怎样 在 图 像 上 增加 对 比 度 : 


下 面 通过 定义 在 用 尸 界面 的 回调 函数 来 实现 直方 图 均衡 化 : 


Vold equalizeCallback (int state, void* userData) 


{ 


Mat result; 


// BGR 图 像 转 化 为 YCbCr 
Mat ycrcb; 
evtColort img, Yercb, COLOR BOR2YCrCb)e; 


// 图 像 通道 分 离 
Vector<Mat> channels; 
split( ycrcb, channels ) ; 


只 均衡 了 通道 


equalizeHist( channels[0], channels [0] ) ; 


// 合并 结果 通道 


merge( channels, ycrcb ) ; 


// 将 YCrCb 转换 为 BGR 格式 
cvtColor( ycrcb, result, COLOR YCrCb2BGR ) ; 


// 显示 图 像 


ImShow("EdualLlLzed'" ，LreSsult) ; 


要 均衡 一 幅 彩 色 图 像 ， 只 需要 均衡 亮度 通道 。 可 以 单独 处 理 每 一 个 颜色 通道 ， 但 是 结果 是 不 可 用 的 。 还 可 以 使 用 诸如 HSV 或 
者 YCrCb 的 任何 其 他 的 颜色 空间 ， 分 离 单 个 通道 的 亮度 分 量 。 选 择 最 终 的 颜色 格式 ， 并 使 用 Y (亮度 ) 通道 来 均衡 图 像 。 然 后 执 
行 下 列 步 又 : 


1. 使 用 cvtColor 函 数 将 输入 的 BGR 图 像 转化 成 YCrCb 格 式 : 
Mat result,. 
// BGR 图 像 转 化 成 YCrCb 


MaLtC VCTCD: 
vecColort mo Yoreb; COLOR BGRAYGrCD)'; 


2. 转 换 好 图 像 后 ， 将 YCrCb 图 像 分 离 到 不 同 的 通道 矩阵 中 : 
// 将 图 像 分 离 进 不 同 的 通道 中 


Vector<Mat> channels; 
split( ycrcb, channels ) ; 


3. 然 后 使 用 equalizeHist 函 数 只 均衡 Y 通 道 的 直方 图 ， 这 个 函数 只 有 两 个 参数 : 输入 和 输出 矩阵 : 


只 均衡 YY 通道 


equalizeHist( channels[0], channels [0] ); 


4 现在 ， 只 需要 合并 结果 通道 ， 将 结果 转换 成 BGR 格 式 并 展示 给 用 户 . 


// 合并 结果 通道 


merge( channels, ycrcb ); 


// ycrcb 转换 成 BGR 格式 
cvtcoolort Yecreb, reBult, COLOR YCrCD2BGR 3 


// 显示 图 像 


1ImShow("Edual1lLzed" ，LreSul]t) ; 


低 对 比 度 的 Lena 图 像 使 用 上 述 方 法 得 到 的 结果 如 下 图 所 示 : 


Equalized 


在 本 节 中 ， 我 们 将 创建 男 一 个 图 像 效 果 ， 即 通常 在 不 同 的 移动 应 用 程序 (如 谷歌 相机 或 Instagram) 中 使 用 的 提 照 效果 。 
本 节 将 介绍 如 何 使 用 查找 表 法 (LUT) ， 稍 后 还 会 讨论 LUT。 
接 下 来 学 习 下 如 何 添加 超 图 ; 在 这 个 例子 中 ， 使 用 一 个 黑暗 的 光环 ， 来 创造 预期 效果 。 


回调 函数 lomoCallback 实 现 了 这 个 功能 ， 它 的 代码 如 下 所 示 : 


Vold lomoCallback (int state, void* userData) 


{ 


Mat result; 


const double exponential e = Std: :exp (1.0) ; 
// 建立 一 个 包含 256 个 元 素 的 映射 表 
Makt: Luk (1, ‘2256 GW ISSUEILI 3 
for (int i=0; ij<256; i++) 
{ 
float x= (float)i/256.0; 
lut.at<uchar>(i)= cvRound( 256 * (1/(1 + Pow(exponential e， 
-({x-0.5)/0.1)) )) ); 
} 


// 拆 分 图 像 通 道 ， 并 只 给 红色 通道 应 用 值 变换 
Vector<Mat> bgr; 

SDLIt Lim Doar) 

BUT(Bar 2 ut, Darl2))3 

// 合并 结果 


merge (bgr, result); 


// 创建 尝 暗 的 图 像 
Na Daleot nogomowe ne CY J2FC3, SoalartD SDDS 1; 


// 创建 图 


circle(halo, Point (img.cols/2, img.rows/2), img.cols/3, 
Scalar(1,1,1), -1): 
blur (halo, halo, Size(img.cols/3, img .cols/3)); 


// 将 结果 转化 为 浮 点 型 
Mat resultf.; 
result .convertTo (resultf, CV 32FC3); 


// 将 结果 和 halo 相 乘 
multiply(resultf, halo, resultf).,; 


// 转化 为 8 位 图 像 


resultf .convertTo(result, CV 8UC31) ; 


// 展示 结果 

limshow ("Lomograpy", result); 
} 
接 下 来 分 析 上 述 代码 。 


LOMO 效 果 分 为 很 多 不 同 的 步骤 ， 但 是 该 例子 中 只 使 用 了 以 下 两 个 步骤 来 实现 一 个 非 弟 简单 的 LOMO 效 果 : 
1. 用 一 条 曲线 来 表示 红色 通道 的 查找 表 的 色彩 操作 。 
2. 适 用 于 早 暗 图 像 的 复 折 效果 。 


第 一 步 是 使 用 这 个 函数 通过 曲线 变化 来 处 理 红 色 


这 个 公式 会 创建 一 条 曲线 ， 使 深 色 变 得 更 深 ， 亮 色 变 得 更 亮 ，x 是 0~255 之 间 任 意 可 能 的 像素 值 ， 在 教程 里 s 是 一 个 值 为 0.1 
的 弟 量 。 较 低 的 常量 值 将 产生 非常 暗 并 且 低 于 128 的 像素 值 ， 以 及 非常 之 并 且 高 于 128 的 像素 值 。 接 近 1 的 值 ， 将 把 曲线 变换 成 一 
条 直线 ， 和 而 且 也 不 会 产生 预期 效果 : 


0.% 


0.6 


0.4 


0 
0 0.2 0.4 0.6 0.% | 


通过 查找 表 (又 称 为 LUT) 提供 的 方法 ， 这 个 功能 很 容易 实现 。LUT 是 一 个 向 量 或 者 一 个 表 ， 它 对 于 一 个 给 定 的 值 返 回 一 个 
在 内 存 中 执行 运算 的 预 处 理 值 。LUT 是 使 用 空 CPU 周 期 的 常用 技术 ， 它 避免 重复 执行 昂贵 的 计算 操作 。 我 们 仪 为 每 个 可 能 的 像 
素 值 计算 一 次 (256 次 ) ， 并 将 结果 存储 在 一 个 表 中 ， 而 不 是 为 每 个 像素 调用 指数 /除法 尔 数 。 因 此 ， 通 过 一 点 扎 的 内 存 成 本 ， 
节省 了 CPU 的 时 间 。 对 于 市 有 小 尺寸 图 像 的 标准 电脑 来 说 ， 虽 然 这 不 会 有 大 的 不 同 ， 但 是 对 于 有 CPU 限 制 的 硬件 来 说 ， 这 将 产 
生 非 癌 大 的 不 同 ， 比 如 树 每 派 。 在 例子 中 ， 如 果 想 为 每 个 像素 使 用 函数 ， 则 需要 通过 计算 局 度 ， 来 得 到 宽度 ; 任 100x 100 像 素 
中 ， 有 10000 次 运算 ， 但 一 个 像素 只 有 256 个 可 能 的 值 。 我 们 可 以 预 乞 计算 像素 值 ， 并 将 它们 保存 在 一 个 LUT 向 量 中 。 


在 示例 代码 中 ， 定 义 变量 E 并 创建 1 行 256 列 的 lut 答 阵 。 然 后 通过 使 用 公式 ， 循 环 遍 历 可 能 的 像素 值 ， 并 将 它们 保存 在 lut 变 
中 : 


二 


const double exponential e = Std: :exp(1.0) ; 
// 建立 一 个 包含 256 个 元 素 的 映射 表 
Mat LU tl SC OV UCL: 
Uonare plubes 工人 Ca 
for (int i=0; i<256; 14++) 


人 


double x= (double)i/256.0; 
plut [i]= cvRound( 256.0 * (1.0/(1.0 + Pow(exponential e, - 
ED 


如 前 所 述 ， 在 本 世 中 ， 不 对 所 有 通道 使 用 这 个 功能 。 仪 用 split 销 数 对 输入 的 图 像 进 行 通道 分 离 : 
// 拆 分 图 像 通道 ， 只 对 红色 通道 应 用 值 变换 


Vector<Mat> bgr; 
BLOG 山本 于” 


然后 将 lut 表 变量 应 用 于 红色 通道 。OpenCV 提 供 的 LUT 函 数 有 以 下 3 个 参数 : 
` 输入 图 像 

:一 个 查找 表 撼 阵 

- 输出 图 像 

调用 的 LUT 冰 数 和 红色 通道 的 代码 如 下 所 示 : 


NUTINI2] : L0G, DoraTy: 


现在 只 需要 合并 计算 出 的 通道 : 


// 合并 结果 


merge (bgr, result).,; 


第 一 步 做 完了 ， 现 在 只 需要 创建 举 暗 ， 来 实现 预期 效果 。 下 面 创 建 一 个 内 部 有 日 色 圆 的 灰色 图 像 ， 并 且 图 像 尺 寸 和 输入 图 像 
的 尺寸 相同 : 


// 创建 尝 暗 的 图 像 
Mat age Tm TOWB LO .Peon CV SEC 有 CURED 3 有 Oo 9 
// 创建 图 
circle (halo, Point (img .cols/2, img .rows/2), img .cols/3, 
Scalar(1,1,1), -1); 


然而 ， 如 果 将 这 张 图 像 应 用 于 输入 图 像 中 ， 它 将 从 暗 变 为 日 。 为 了 得 到 平滑 的 圆 晕 效 果 ， 通 过 blur 滤 波 函 数 给 图 像 使 用 大 块 
模糊 : 


blur (halo, halo, Size(img.cols/3, img.cols/3)); 


应 用 模糊 滤波 器 后 的 结果 如 下 图 所 示 : 


现在 ， 只 需要 将 这 个 光 晕 用 于 从 步 又 1 得 到 的 图 像 中 。 一 个 简单 的 做 法 是 将 这 两 张 图 像 正 片区 底 。 但 是 需要 将 输入 图 像 从 8 


是 整 型 值 : 


位 图 像 变 为 32 位 浮 点 型 ， 因 为 我 们 需要 正片 蔷 底 的 模糊 图 像 ， 它 的 值 介 于 0 到 1 之 | 间 ， 而 输入 图 像 


// 将 结果 转化 为 浮 点 型 


Mat resultf.; 


result .convertTo(resultf, CV 32FC3); 


在 转换 完 图 像 之 后 ， 我 们 只 需要 将 算 阵 逐 元 素 相 梯 : 


// 逐 元 素 相 乘 


multiply (reSultf，halo，LreSsulLtft) ; 


拟 型 的 图 像 矩 阵 变 换 成 8 位 图 像 ， 并 展示 出 来 ( 见 下 图 ) : 


最 后 ， 将 浮 


// 转化 为 8 位 图 像 
resultf.convertTo(result, CV 8UcC3 1) ; 


// 展示 结果 


imshow ("Lomodgrapy" ，Lresult) ; 


站 


:Y=150) ~ 及: 各 G:15 B:24 


本 忆 将 创建 卡通 (cartoonize) 效果 。 这 个 效果 将 使 图 像 看 起 来 类 似 于 卡通 图 像 。 要 做 到 这 一 点 ， 需 要 用 到 两 个 步骤 : 边 绿 
仿 测 和 色彩 渡 波 。 


cartoon Callback 尔 数 用 以 下 代码 实现 这 个 效果 : 


Vold cartoonCallback (int state, void* userData) 


人 


/** 了 EDGES **/ 
// 应 用 中 值 滤 波 器 去 除 可 能 的 噪声 


Mat ImgMeailan 
medianBlur (img, imgMedian, 7); 


// 用 Canny 检测 边 绿 
Mat imgCanny; 


Canny (imgMedian, imgCanny, 50, 150); 


// 边缘 膨胀 


Mat kernel= getStructuringElement (MORPH RECT, Size(2,2)); 
dilate(ijmgCanny, imgCanny, kernel); 


// 边缘 值 缩放 到 1， 并 将 值 翻 转 
imgCanny= imgCanny/255; 
imgCanny= 1-imgCanny,; 


// 使 用 浮 点 值 以 便 允 许 在 0 和 1 之 间 相 乘 
Mat ijmgCannyf; 
LImgCanny .convertTo(imgCannyf, CV 32FC3),， 


// 模糊 边缘 来 实现 平滑 效果 
blur (imgCannyf, imgCannyf, Silize (S55)}); 


/xx COLOR **/ 


// 应 用 双边 滤波 器 ， 实 现 色 彩 均匀 化 
Mat imgBF; 
bilateralFilter(img, imgBF, 9, 150.0, 150.0); 


// 截断 颜色 


Mat result= imgBF/25; 
result= result*25,， 


/** MERGES COLOR + EDGES **/ 

// 为 边缘 创建 3 个 通道 

Mat ijmgCanny3c; 

Mat cannyChannels[]={ imgCannyf, imgCannyf, imgCannyf}; 
merge (cannyChannels, 3, imgCanny3c); 


// 将 结果 转化 为 浮 点 型 
Mat resultf. 
result .convertTo(resultf, CV 32FC3); 


// 颜色 和 边缘 矩阵 相 乘 
multiply (resultf, imgCanny3c, resultf).,; 


// 转化 为 8 位 图 像 


reSuUlLtf . ConVeLrtTo (zeSsujlt，CV 8UC3 1) ; 


// 显示 图 像 


imshow ("Result", result). 


接 下 来 分 析 上 述 代码 。 


第 一 步 是 检测 图 像 中 的 重要 边缘 。 在 检测 边缘 乙 前 ， 需 要 先 去 除 输 入 图 像 的 噪声 。 有 好 几 种 方式 和 方法 可 以 做 到 。 这 里 将 使 


用 中 值 滤 波 器 消除 任何 可 能 的 小 噪声 ， 但 是 也 可 以 用 其 他 万 法 ， 如 高 斯 模糊 滤波 等 。 这 个 OpenCV 逊 数 叫 作 medianblur， 它 有 
三 个 入 参 : 输入 图 像 、 输 出 图 像 和 核 矩 阵 值 (一 个 核 矩 阵 是 一 个 小 和 矩阵， 用 于 应 于 一 些 数学 运算 ， 如 图 像 的 卷 积 


Mat imgMedian; 


medianBlur (img, imgMedian, 7); 


消除 任何 可 能 的 噪声 后 ， 可 以 用 canny 滤 波 器 检测 强 边缘 : 
// 用 Canny 滤波 器 检测 强 边 缘 


Mat imgCanny; 
Canny (ImgMedlan， ImgCanny，50，150) ; 


canny 滤 波 器 接受 下 列 参 数 : 


- 输入 图 像 
` 输出 图 像 
- 第 一 个 赋值 
第 二 个 阔 值 


“ 索 贝 尔 算 子 核算 阵 大 小 
* 用 来 检查 是 否 使 用 更 精确 的 图 像 梯度 幅 值 的 布尔 值 


在 第 一 个 和 第 二 个 辣 值 之 间 的 最 小 值 用 于 边 绿 连接 。 用 最 大 值 查找 强 边 绿 的 初始 区 域 。 达 贝尔 算 子 核算 阵 大 小 是 这 贝尔 滤波 
器 的 核 矩 阵 大 小 ， 将 在 这 个 算法 中 使 用 。 


检测 完 边 绿 后， 将 使 用 一 个 小 膨胀 来 连接 断 开 的 边缘 : 


// 边缘 膨胀 
Mat kernel= getStructuringElement (MORPH RECT, Size(2,2)); 
dilate(ijmgCanny, imgCanny, kernel).; 


类 似 于 在 LOMO 效 果 中 的 操作 ， 只 需要 用 彩色 图 像 来 正片 茎 底 边 缘 结果 图 像 。 然 后 ， 需 要 0~ 1 之 间 的 一 个 像素 值 ， 所 以 将 
canny 的 结果 除 以 256， 并 翻转 边缘 为 黑色 : 


// 边缘 值 缩放 到 1， 并 将 值 翻转 


ijmgCanny= imgCanny/255; 
lmgCanny= 1-ijmgCanny,; 


把 Canny 8 位 无 符号 格式 变换 为 浮 点 型 矩阵 : 

// 使 用 浮 点 值 以 便 允 许 在 0 和 1 之 间 相 乘 

Mat limgCannytf; 

1mgCanny .convertTo (imgCannyf, CV 32FC3); 


为 了 给 出 一 个 很 酷 的 结果 ， 可 以 进行 边缘 模糊 ， 得 到 最 终 的 平滑 线条 ， 然 后 使 用 模糊 滤波 : 


// 模糊 边缘 来 实现 平滑 效果 
Dliur (mgGannvi, -ITCaDDYL SILZeSS5 


算法 的 第 一 步 完 成 了 ， 现 在 我 们 将 处 理 色彩 。 
要 得 到 一 个 卡通 前 效果 ， 接 下 来 使 用 双边 力 滤 波 器 : 
// 应 用 双边 滤波 器 ， 现 实 色 彩 均 匀 化 


Mat ImaBF ; 
bilateralFilter(img, imgBF, 9, 150.0, 150.0);，; 


双边 滤波 器 可 以 在 保存 边 绿 的 同时 ,减少 图 像 的 噪声 ， 但 我 们 可 以 通过 适当 的 参数 得 到 一 个 卡通 效果 ， 这 个 以 后 还 会 进一步 


双边 滤波 器 的 参数 如 下 所 示 : 

输入 图 像 

- 输出 图 像 

- 每 个 像素 邻 域 的 直径 ; 如 果 这 个 值 设置 为 负数 ， 那 么 DOpenCYV 会 根据 坐标 空间 的 标准 方差 来 计算 它 
-色彩 空间 的 标准 方差 

` 坐标 空间 的 标准 方差 〈 像 素 单位 ) 


~ 当 直 径 大 于 5 时 ， 双 边 滤波 器 会 变 得 缓慢 。 若 标准 方差 值 大 于 150， 将 出 现 卡通 效果 。 


要 创建 一 个 明显 的 卡通 效果 ， 可 通过 除法 或 乘法 来 删除 可 能 到 10 的 颜色 值 。 对 于 其 他 值 ， 或 想 更 多 地 了 解 标准 方差 参数 ， 
可 阅读 OpenCV 文 档 : 


// 截断 颜色 
Mat result= imgBF/25; 
result= result*25.; 


最 后 ， 需 要 合并 头 色 和 边 绿 的 结果 。 然 后 创建 一 个 3 通道 图 像 : 


// 为 边缘 创建 3 个 通道 
Mat limgCanny3c,; 
Mat cannyChannels[]={ imgCannyf, imgCannyf, imgCannyf}; 
merge (cannyChannels, 3, imgCanny3c); 


把 颜色 结果 图 像 转 换 为 32 位 浮 点 型 图 像 ， 然 后 将 两 个 图 像 逐 像素 相 乘 : 


// 将 结果 转化 为 浮 点 型 
Mat resultf,. 
reBult.. .ConvertTo(lresultf, CV 327C3)} 


// 将 颜色 和 边缘 和 矩阵 相 乘 
multiply(resultf, imgCanny3c, resultf); 


最 后 ， 只 需要 将 图 像 转 换 成 一 个 8 位 图 像 ， 并 展示 给 用 户 : 


// 转化 为 8 位 图 像 


resultf .convertTo(result, CV 8UC3); 


// 显示 图 像 


ijmshow ("Result", result).， 


在 下 图 中 可 以 看 到 输入 图 像 ( 左 图 ) 和 应 用 卡通 效果 后 的 结果 ( 石 图 ) : 


(x=293, y=23) ~ R:200 G:100 B:100 


=1) ~ R:207 G:103 B:102 


(x=144 
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本 章 我 们 学 习 了 如 何 创建 一 个 完整 的 项 目 ， 并 使 用 不 同 的 效果 处 理 图 像 。 我 们 还 在 多 个 矩阵 中 分 离 了 一 
于 只 有 一 个 通道 的 图 像 。 同 时 ， 学 会 了 如 何 创 建 理 找 表 ， 合 并 多 个 和 矩阵， 使 用 Canny 和 双边 滤波 ， 画 圆 ， 添 加 多 张 图 像 实 现 光 时 


效果 等 。 
下 一 章 我 们 将 学 习 如 何 做 目标 检测 ， 以 及 如 何在 不 同 的 区 域 分 割 图 像 和 进行 图 像 检测 。 
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在 上 一 章 中 ， 我 们 学 习 了 直方 图 ， 并 且 了 解 了 图 像 处 理 和 创建 一 个 照片 应 用 程序 的 区 别 。 


本 章 将 介绍 目标 分 割 和 检测 的 基本 概念 ， 这 意味 着 可 以 隅 离 出 现 有 图 像 中 的 目标 ， 方 便 未 来 处 理 和 分 析 。 
本 章 将 讨论 以 下 主要 内 容 : 

- 去 品 

` 光 / 底 色 去 除 的 基本 知识 

- 辣 值 操作 

连通 组 件 的 目标 分 割 

“ 目标 分 割 的 提取 轮廓 操作 


工业 部 门 使 用 复杂 的 计算 机 视 党 系统 和 硬件 。 计 算 机 视 党 尝试 检测 存在 的 问题 和 最 小 化 在 生产 过 程 中 产生 的 错误 ， 并 提高 最 


在 这 一 领域 ,计算 机 视 党 任务 称 为 自动 光学 检测 或 AOI。 在 一 个 或 多 个 摄像 机 中 扫 接 每 个 电路 检测 关键 故障 和 质量 缺陷 ， 这 
个 名 称 出 现在 制造 商 印 制 的 电路 板 检 查 中 。 其 他 制造 商 使 用 的 名 称 是 利用 光学 摄像 系统 和 计算 机 视 党 算法 来 提高 产品 质量 。 如 
今 ， 依 照 不 同 的 需求 ， 如 测量 目标 检测 的 表面 效果 等 ， 光 学 检测 使 用 不 同 相 机 类 型 ， 如 红外 、3D 摄 像 机 等 等 ， 复 杂 的 算法 常用 
于 数 以 干 计 不 同 的 工业 目的 中 ， 例 如 缺陷 检测 、 识 别 、 分 类 等 。 


5.1 隔 珊 场景 中 的 目标 


本 节 将 会 介绍 任何 AOI 算 法 的 第 一 步 一 一 隔离 场景 中 的 不 同 部 分 或 物体 。 
下 面 以 三 种 目标 类 型 的 目标 检测 和 分 类 为 例 : 曙 丝 钉 、 螺 丝 圈 、 螺 母 。 本 草 和 第 6 草 将 开发 这 些 应 用 程序 。 


下 面 假设 一 家 公司 生产 这 三 个 产品 。 它 们 都 是 产 目 同一 个 载 囊 上 。 目 的 是 检测 载 市 中 的 每 个 目标 ， 并 分 类 ， 之 后 通过 机 器 人 
放 在 正确 的 架 上 : 


本 蔬 会 隅 离 每 个 目标 ， 并 以 像素 为 单位 检测 它们 在 图 像 中 的 位 置 。 在 下 一 小 节 中 ， 将 会 检查 每 个 独立 目标 ， 并 根据 螺母 、 螺 
丝 钉 或 螺丝 圈 进 行 分 类 。 


在 下 图 中 ， 左 图 显示 了 一 些 目 标的 预期 位 置 ， 右 图 可 以 对 每 个 目标 绘制 不 同 的 颜色 。 这 样 可 以 显示 出 不 同 的 特征 ， 如 面积 、 
高 度 、 宽 度 、 外 形 尺 十 ， 等 等 。 
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为 了 实现 这 一 结果 ， 如 下 面 的 关系 图 所 示 ， 通 过 执行 不 同 的 步骤 能 够 更 好 地 理解 和 组 织 算 法 : 


J 
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特征 提取 


该 应 用 分 在 两 草 讲解 。 本 章 将 介绍 预 处 理 和 分 割 的 步骤 。 在 第 6 草 中 我 们 将 提取 每 个 分 段 的 目标 的 特征 并 训练 机 器 学 习 算 法 
来 标识 每 个 目标 的 类 ， 从 而 实现 对 象 分 类 


O 


预 处 理 步骤 分 为 三 个 或 更 多 的 子 步骤 ， 如 下 : 


. 二 值 化 


在 分 割 步 又 中 会 使 用 如 下 两 种 不 同 的 算法 : 


. 轮廓 提取 算法 


` 连通 分 量 提取 (标记 ) 


可 以 在 下 面 的 流程 图 中 看 到 这 些 子 步骤 之 间 的 关系: 


检索 轮 万 


下 面 通 过 去 除 噪声 和 光亮 效果 进入 获得 最 好 的 二 值 图 像 的 预 处 理 步 骤 ， 这 样 可 以 尽量 减少 可 能 的 检测 错误 。 


5.2 ”创建 AOI| 应 用 程序 


石 要 创建 新 的 应 用 程序 ， 要 企 当 用 户 执行 它们 时 输入 几 个 的 参数 ; 它们 都 是 可 选 的 ， 但 不 包括 需要 处 理 的 输入 图 像 


需要 处 理 的 输入 图 像 


` 光 图 像 模式 
“ 用 户 可 以 选择 差分 或 除法 操作 的 光 操 作 : 
“ 如 果 用 户 输 入 的 值 设置 为 0， 则 使 用 差分 运算 
` 如 果 用 户 输入 的 值 设 置 为 1， 则 使 用 除法 运算 的 
. 用 户 可 以 根据 是 否 有 统计 和 findContouts 函 数 从 中 选择 连接 组 件 进行 分 割 : 


“ 如 果 用 户 输 入 的 值 设 置 为 1， 则 使 用 components 有 函数 分 宣 


| 连通 组 件 
“ 如 果 用 户 输 入 的 值 设置 为 2>， 则 连通 组 件 的 统计 区 被 使 用 
“ 如 果 用 户 输入 的 值 设 置 为 3， 则 findContours 兄 数 用 于 分 割 

若 要 局 用 这 个 用 己 的 选择 ， 将 通过 这 些 键 使 用 命令 行 解析 器 类 : 

// OpenCV 命令 行 解析 器 功能 

// 命令 行 解析 器 接受 的 键 值 


const char* keys = 


{ 


"{help h usage ? | | print this message}" 
"{@image | | lmage to process}" 
"{@lightPattern || Image light pattern to apply to image input}" 


"{lightMethod | 1 | Method to remove background light, 0 
difference, 1 div }" 


"{segMethod | 1 | Method to segment: 1 connected Components, 2 
connected components with stats, 3 find Contours }" 


}; 


可 以 使 用 命令 行 解析 器 类 检查 在 主 函 数 中 的 参数 : 


int manl dnt argc const char** argy | 


{ 


CommandLineParser parserl(largc, argv, keys); 
barserabout ("Chapter 5. EhotolTool vli.050"):; 
/ /如果 需要 ， 则 显示 帮助 

If (parser.has ("help")) 


{ 


parser.printMessage () ; 
return OU， 


} 


String img file= parser.get<String> (0); 

String light pattern file= parser.get<String> (1); 
int method light= parser.get<int>("lightMethod").,; 
int method seg= parser.get<int> ("segMethod"),， 


// 检查 参数 是 否 正确 地 解析 变量 


if (!parser.check ()) 


{ 


parser.printErrors () ; 
return VM 


经 过 解析 器 类 的 命令 行 用 户 数 据 ， 可 以 检查 是 人 否 正确 地 加 载 输入 图 像 ， 然 后 加 载 图 像 并 检查 是 否 有 数据 : 


// 加 载 待 处 理 的 图 像 
Mat img= imread (img file, 0); 
if (img.data==NULL) { 
Cout << "Error loading image "<< img file << endl; 
人 CUIZN Ys 


现在 ， 已 经 准备 好 创建 分 割 的 AOl 过 程 。 下 面 将 开始 预 处 理 任务 。 


5.3 ”输入 图 像 的 预 处 理 
本 节 介绍 一 些 最 常见 的 技术 ， 它 们 主要 用 于 在 目标 分 割 或 检测 中 预 处 理 图 像 。 在 开始 工作 并 从 中 提取 需要 的 信息 之 前 ， 对 于 
新 图 像 的 第 一 个 操作 预 处 理 。 


通常 情况 下 ， 预 处 理 步 骤 是 尽量 减少 图 像 噪声 、 光 照 条 件 ， 或 由 于 摄像 机 和 镜头 引起 的 图 像 变形 。 当 兰 试 检测 对 象 或 分 离 图 像 
| 


时 ， 这 些 步 又 会 尽量 减少 错误 。 


5.3.1 ”去除 品 巨 


如 果 不 去 除 噪声 ， 可 能 检测 到 更 多 非 预 期 的 对 象 ， 那 是 因为 通常 噪声 表示 为 图 像 中 的 小 点 ， 可 以 作为 对 象 分 害 。 通 剃 传感器 
和 扫 摘 仪 电路 产生 这 种 噪声 。 这 种 亮度 或 色彩 的 变化 可 以 表示 成 不 同 的 类 型 ， 如 高 斯 噪声 、 尖 峰 噪声 和 散 粒 噪声 。 许 多 技术 可 用 


于 去 除 噪 声 。 接 下 来 将 根据 不 同类 型 的 噪声 ， 选 用 特定 的 去 噪 方法 。 例 如 ， 中 值 滤波 器 通 单 用 于 去 除 椒盐 噪声 : 


(x=88, y=4) ~ L:118 


Input without noise with box smooth 


左 图 是 椒盐 噪声 的 原始 输入 。 如 果 使 用 中 值 模糊 ， 将 得 到 一 个 令 人 尺 订 的 结果 ， 即 失去 小 细节 。 例 如 ， 保 持 一 颗 螺 丝 钉 的 边 
界 完整 性 ， 见 右上 图 。 如 果 使 用 包 滤 波 器 或 高 斯 滤波 器 ， 噪 声 不 会 去 除 。 它 只 是 平滑 操作 ， 并 且 目 标 详 细 变 得 模糊 和 平滑 ， 见 石 
下 图 |。 


OpenCV 提 供 了 medianBlur 函 数 ， 它 需要 以 下 三 个 参数 : 

` 输入 图 像 是 1、3 或 4 通 记 图像。 当 核 矩阵 大 小 大 于 5 时 ， 图 像 深度 只 能 是 CV_8U。 
输出 图 像 是 生成 的 图 像 ， 具 有 和 输入 图 像 相 同 的 类 型 和 深度 。 

: 具有 核 矩 阵 大 小 大 于 1 且 是 奇数 值 的 核 矩 阵 大 小 。 例 如 ，3、5、7。 

下 面 这 段 代 码 可 以 去 除 噪声 : 


Mat img noise; 
medianBlur (img, img noise, 3); 


5.3.2 ”使 用 施 弘 删除 背景 来 分 割 


在 本 节 中 ， 开 友 使 用 光 纹 删除 背景 的 基本 算法 。 这 个 预 处 理 为 我 们 提供 了 更 好 的 分 割 ， 见 下 图 。 左 上 图 是 无 噪声 的 输入 图 
像 ， 右 上 图 是 使 用 辣 值 操作 的 结果 ， 可 以 看 到 顶部 的 伪 像 。 左 下 图 是 去 除 背 景 后 的 输入 图 像 ， 石 下 图 是 没有 伪 像 且 更 好 地 分 割 的 
阅 值 化 结果 。 


No Light - | Threshold z 
Fe 中 全 加 台 PPHs 


artiafac-c 


No Light 


(w=43, y=136) ~ L:255 


怎样 才能 删除 图 像 中 的 光 呢 ?操作 非常 简单 ， 只 需 从 场景 中 的 其 他 图 像 提 取 位 于 完全 相同 位 置 ， 没 有 任何 对 象 ， 并 且 具 有 相 
同 光照 条 件 的 图 像 。 因 为 外 部 条 件 可 监督 且 可 知 ， 所 以 这 是 AOI 中 非常 常见 的 技术 。 例 子 中 的 图 像 结果 类 似 于 下 图 : 


然后 ， 用 一 种 简单 的 数学 运算 ， 我 们 可 以 删除 这 个 光 的 模式 。 有 两 个 选项 来 删除 已 ， 如 下 : 


图 像 关 分 是 最 简单 的 方法 。 如 果 有 光 纹 L 和 图 像 |， 去 除 R 的 结果 是 它们 之 间 的 卷 值 : 


这 种 除法 有 点 复 洒 但 又 简单 。 如 果 有 光 弘 矩阵 L 和 图 像 和 矩阵 |， 去 除 R 的 结果 是 


R= 255*{(1- (I/L)) 


带 暗 ， 且 图 像 像素 值 将 总 是 保持 不 变 或 低 于 光 像 素 


在 这 种 情况 下 ， 可 以 把 图 像 除 以 区 约 。 假 设施 纹 是 日 色 ， 对 稼 比 
值 。 从 IJ/L 获 得 的 结果 介 于 0 和 1 之 间 。 翻 转 这 一 除法 的 结果 ， 得 到 的 相同 颜色 的 方向 学 围 并 乘 以 2525， 可 获取 介 于 0~255 之 则 的 


值 泄 围 。 


在 下 面 的 代码 中 ， 将 创建 一 个 新 的 国 数 removeLight， 它 具有 以 下 参数 : 


. 需要 删除 光 或 者 背景 的 输入 图 像 
. 光 纹 遮挡 


方法 0 表示 差分 ，1 表 示 除 法 


答 出 是 一 个 新 的 无 沧 或 无 表 景 图 像 起 阵 。 
下 面 的 代码 使 用 光 纹 去 除 背 景 : 


Mat removeLight (Mat img, Mat pattern, int method) 


{ 


Mat aux; 
// 如 果 方 法 是 归 一 化 
if (method==1) 


{ 
// 相 除 时 需要 将 图 像 更 改 为 32 位 浮 点 型 
Mat img32, pattern32,; 
im vormvertlio(lLmg3d: CV 26)s 
pattern.convertTo (pattern32, CV 32PF) ; 


// 图 像 除 以 模式 

aux= 1- (img32/pattern32),， 
// 对 其 进行 缩放 以 转换 为 8 位 格式 
AauUX=auUux*25D55; 


// 转换 为 8 位 格式 

aux.convertTo(aux, CV 8U) :; 
}elsel{ 

aux= pattern-img,; 


| 


return aux; 


接 下 来 去 理解 这 一 点 。 创 建 aux 变 量 之 后 ， 用 户 选择 函数 并 传递 参数 ， 可 以 保存 结果 。 如 果 选 择 的 方法 是 1， 则 使 用 division 
万 法 。 

division 方 法 需要 32 位 浮 点 图 像 ， 才 能 分 离 图 像 。 第 一 步 是 要 转换 图 像 和 光 纹 遮挡 为 32 位 深度 : 

// 相 除 需要 将 图 像 转 化 为 32 位 浮 点 型 

Mat img32, pattern32; 


LImg ConVerztIotlnmog327 CV 32F); 
pattern.convertTo(lpattern32, CV 32F); 


现在 ， 在 矩阵 中 可 以 执行 数学 运算 ,然后 如 所 述 ， 将 图 像 除 以 模式 并 转化 结果 : 


// 图 像 除 以 模式 
aux= 1- (img32/pattern32); 
// 对 齐 进行 缩放 的 目的 是 转换 为 8 位 格式 


aUX=BUXY25D5 ，; 
现在 得 到 结果 ， 但 是 需要 返回 8 位 深度 图 像 ， 然 后 像 以 前 做 的 那样 使 用 convert 阔 数 ， 将 其 转换 为 32 位 浮 操 型 : 


// 转化 为 8 位 格式 


aux.convertTo(aux, CV 8U); 


现在 返回 aux 变 量 作为 结果 。 对 于 磊 分 方法 ， 因 为 不 需要 转换 图 像 ， 所 以 只 需要 执行 奢 分 并 返回 ， 所 以 开 友 是 很 容易 的 。 如 
果 不 假设 模式 等 于 或 大 于 这 个 图 像 ， 束 将 需要 检查 和 截取 几 个 小 于 0 或 大 于 255 的 越界 值 : 


aux= pattern-img,; 


下 图 是 使 用 光 纹 的 输入 图 像 的 结果 : 


在 获取 的 结果 中 ， 可 以 检查 如 何 删 除 光线 渐变 ， 并 且 伪 像 同样 也 可 能 被 删除 。 


然而 ， 若 没有 光 或 背景 图 案 会 友 生 什么 ? 有 几 个 大 .分 技术 可 以 实现 ， 下 面 来 介绍 一 个 最 基本 的 技术 。 使 用 滤波 器 可 以 创建 一 
个 可 用 算法 ,但 你 能 从 在 不 同位 置 出 现 的 几 个 图 像 的 背景 学 习 到 更 好 的 算法 。 这 种 技术 有 时 需要 背景 估计 图 像 初 始 化 ， 它 的 基本 
方法 可 以 很 好 地 运行 。 这 些 先进 的 技术 将 第 8 草 探讨 。 


若 要 估计 背景 图 像 ， 将 在 输入 图 像 上 使 用 大 尺寸 核算 阵 模糊 化 。 这 是 一 种 在 OCR 中 常用 的 技术 ， 字 母 相对 于 整个 文档 细 而 
小 ， 并 且 执 行 图 像 的 光 纹 近似 。 事 实 上 在 左 图 和 右 图 表面 ， 可 以 看 到 光 或 背景 模式 重建 : 


可 以 看 到 光 纹 有 轻微 差异 ， 但 这 一 结果 足以 消除 育 景 ， 并 且 可 以 看 到 下 图 是 使 用 不 同 图 像 的 结果 。 


在 下 图 中 ， 可 以 看 到 使 用 原始 输入 图 像 己 用 以 前 的 万 法 计算 的 背景 估 值 的 差分 图 像 : 


calculateLightPattern 函 数 创建 这 个 光 图 案 或 背景 的 近似 值 : 


Mat calLculateLD1LIdghtPatterzrn (Mat img) 
Mat pattern; 
// 用 基本 和 有 效 的 方式 来 计算 图 像 光 纹 
blur (Ing，TDatcternm，S1ze(Inmng.colL8s/3，LImg.colLs/3) ) ， 
return pattern; 


| 


这 个 basic 消 数 适用 于 使 用 相对 于 图 像 尺 寸 的 大 尺寸 核算 阵 的 输入 图 像 的 模糊 。 从 代码 可 以 看 到 ， 它 是 原始 览 高 的 三 分 之 


I 


删除 背景 后 ， 还 需要 能 在 未 来 进行 图 像 分 割 的 二 值 图 像 。 现 在 ,使 用 两 个 不 同 羡 值 的 threshold 销 数 : 因为 所 有 非 兴 趣 区 域 


是 黑色 或 者 很 低 值 ， 删 除 光 / 背 景 时 ， 可 以 使 用 一 个 低 值 ， 因 为 有 一 个 日 色 育 景 且 多 个 较 低 值 的 目标 图 像 ， 使 用 不 需要 光 移 除 消 
数 的 中 间 值 。 后 一 个 选项 允许 检查 背景 是 否 去 除 : 


// 为 分 割 图 像 ， 先 二 值 化 
Mat img 七 hz; 
if (method light!=2)t{ 


threshold(img no light, img thr, 30, 255, THRESH BINARY) ; 
lelsel 
Eresnolod (Lm TG. Light,. Tm ir, Ta40. 255. THRESH BTINARY 工 NV 


| 


下 面 继续 介绍 应 用 的 最 重要 的 部 分 : 分 割 。 我 们 将 使 用 两 种 不 同 的 方法 或 算法 : 连接 组 件 和 轮廓 。 


5.4 ”分割 栓 入 图 像 


下 面 将 介绍 用 于 分 割 国 值 图 像 的 两 种 扩 术 : 
连通 区 域 
. findContourfs 芝 数 


使 用 这 两 种 扩 术 ， 将 允许 提取 图 像 中 每 个 目标 对 象 出 现 的 兴趣 区域 ; 在 例子 中 是 螺母 、 螺 丝 杀 和 螺丝 圈 。 


5.4.1 ”连通 区 域 算法 


连通 区 域 是 分 割 和 识别 二 进 制图 像 部 分 的 常用 算法 。 连 通 区 域 是 使 用 8 或 4 连接 像素 标记 图 像 的 迭代 算法 。 如 果 两 个 像素 相 


邻 且 有 相同 值 它 们 会 被 连接 在 一 起 。 在 下 图 中 ， 每 个 像素 都 有 8 个 邻 域 像素 : 


4 连接 意味 看 只 有 相 邻 的 >、4、5 和 7 可 以 连接 到 中 心 ， 如 果 这 些 像素 具有 相同 的 值 。 在 8 连接 例子 中 ， 如 果 1、2、3、4、 
5、6、7 有 具有 相同 的 值 ， 可 以 和 8 连接 。 


在 接 下 来 的 例子 中 ， 可 以 看 到 8 连接 算法 和 4 连接 算法 乙 间 的 区 别 。 提 供 的 每 个 算法 适用 于 下 一 个 二 值 图 像 。 下 面 使 用 9x 9 的 
小 图 像 和 缩放 到 可 以 显示 连通 区 域 工 作 原 理 以 及 4 连接 算法 和 8 连接 算法 的 区 别 : 


如 天 图 所 示 ，4 连 接 算 法 检测 到 两 个 对 象 。 石 侧 图 像 中 ， 因 为 两 个 对 角 像 素 相连 ， 所 以 8 连接 算法 只 检测 到 一 个 对 象 ;而 人 在 4 
连接 算法 中 ， 只 有 垂直 和 水 平 像素 相连 。 可 以 看 到 人 在 下 图 中 每 个 对 象 具有 不 同 灰 度 颜色 值 的 结果 : 


OpenCV 3 提供 有 下 面 两 个 不 同 功能 的 连通 区 域 算法 : 


@ connectedComponents (Image， labels, connectivity=8, type=CV 325) 


@ connectedComponentsWithSsStats (ijmage, labels, stats, centroids, 


connectivity=8, ltype=CV 32S) 


这 两 个 国 数 返回 一 个 表示 检测 到 几 个 标签 的 整数 ， 标 签 0 表 示 背 景 。 
这 两 个 为 数 之 间 的 基本 区 别 是 返回 的 信息 。 下 面 检 查 下 每 个 国 数 的 参数 。connectedComponents 了 因数 需要 下 面 的 参数 : 
` Image : 待 标记 的 输入 图 像 。 


. Label: 这 是 一 个 mat， 输 出 与 输入 图 像 相同 大 小 的 图 像 ， 每 个 像素 都 有 各 自 标 签 的 值 ， 所 有 0 都 代表 背景 ， 像 素 1 代表 连通 
区 域 的 第 一 个 对 象 ， 以 此 类 推 。 


Connectivity: 它 有 两 个 可 能 的 值 ，8 或 4 表示 想 要 使 用 的 连接 。 
. Type: 这 是 想 要 使 用 的 标签 图 像 类 型 : 只 允许 两 种 类 型 ，CV32_S 或 CV16_U， 上 默认 值 是 CV32_S。 
connectedComponentsWithStats 函 数 需要 两 个 额外 的 参数 : 统计 和 质心 参数 : 


Stats: 包括 背景 标签 在 内 的 所 有 标签 的 输出 参数 。 以 下 统计 和 值 可 以 通过 统计 数据 (标签 、 列 ) 访问 ， 列 也 同样 定义 ， 具 体 
如 下 : 


.CC_STAT LEFT: 这 是 连通 区 域 对 象 的 左边 x 坐标 
* CC_STAT_TOP: 这 是 连通 区 域 对 象 的 顶层 y 坐 标 
CC_STAT _WIDTH: 这 定义 连通 区 域 对 象 边 框 的 宽度 
.CC_STAT_HEIGHT: 这 定义 连通 区 域 对 象 边 框 的 高 度 


:CC_STAT_ AREA: 这 是 连通 区 域 对 象 的 像素 (区 ) 的 数量 


* Centroids: 每 个 标签 (包含 背景 ) 的 浮 点 型 质心 点 


在 示例 应 用 程序 中 ， 创 建 两 个 函数 来 应 用 这 两 种 OpenCV 算 法 ， 并 且 向 用 户 展示 通过 基本 算法 获得 的 新 图 像 中 彩色 目标 结 
果 ， 同 时 展示 绘制 的 每 个 目标 的 统计 算法 区 。 


下 面 定义 连通 区 域 函数 的 基本 绘 医 


Vold ConnectedComponents (Mat 1img) 
人 
// 使 用 连通 区 域 分 离 符 合 要 求 部 分 图 像 Mat 标签 
Mat labels,.; 
int num objects= connectedComponents (img, labels); 
// 检查 检测 到 的 目标 数目 
if (num objects < 2 ){ 
Cout << "No objects detected" << endl; 
return,; 
lelsef 
cout << "Number of objects detected: " << num objects - 1 << endl]l; 


| 
// 创建 彩色 目标 的 输出 图 像 
Mat output= Mat::zeros(img.rows,img.cols, CV 8UC3); 
RNG rng( OxFFFFFFFF ) ; 
for(int i=1; i<num objects; i++){ 
Mat mask= labels==1; 
output .setTo(randomColor (rng), mask).,; 


} 


imshow ("Result", output)., 


首先 ,调用 OpenCV 的 connectedComponents 浆 数 得 到 目标 检测 到 的 数量 。 如 果 对 象 的 数目 少 于 两 个 ， 这 意味 着 只 发 现 
了 背景 对 象 ， 不 需要 男 任 何 东 西 就 结束 了 。 如 果 这 一 算法 检测 到 多 个 对 象 ， 会 在 终 病 上 显示 检测 到 的 对 象 的 数目 : 


Mat labels,; 
int num objects= connectedComponents (img, labels); 
// 检查 检测 到 的 对 象 的 数目 
if (num objects < 2 ){ 
cout << "No objects detected'" << endl; 


EEG: 
lelself 
cout << "Number of objects detected: " << num objects - 1 << endl]l; 
现在 绘制 所 有 在 新 图 像 上 检测 到 的 不 同色 彩 目标 ， 然 后 需要 创建 一 个 具有 相同 输入 大 小 和 三 个 通道 的 新 黑色 图 像 : 


Mat output= Mat::zeros (img.rows,img.cols, CV 8UC3); 
然后 ， 需 要 塌 历 除 0 值 以 外 的 每 个 标签 ， 因 为 0 值 是 背景 标签 : 
for(int i=1; i<num objects; i++){ 


需要 使 用 比较 为 每 个 标签 章 | 建 一 个 掩 码 ， 从 而 可 以 提取 标签 图 像 中 的 每 个 对 象 ， 并 且 将 它 保存 到 一 个 新 图 像 : 


Mat mask= labels==1; 


最 后 ， 使 用 掩 码 设置 输出 图 像 伪 随机 颜色 值 : 


output.setTo(randomColor (rng), mask); 


| 
循环 所 有 图 像 后 ， 在 输出 图 像 中 有 不 同 颜色 的 所 有 目标 ， 仅 需 显 示 输 出 图 像 : 


mshow ("Result", output).; 


下 图 是 使 用 不 同 的 颜色 或 灰 度 值 绘制 出 来 的 每 个 对 象 : 


下 面 将 解释 如 何 通 过 使 用 连通 区 域 统计 OpenCV 算 法 ， 显 示 更 多 信息 的 输出 结果 图 像 。 下 面 的 消 数 实现 这 项 功能 : 


vold ConnectedComponentsStats (Mat img) 


{ 
// 连通 区 域 统计 信息 
Mat labels, stats, centroids; 
int num objects= connectedComponentsWithstats(img, labels, stats, 
centroids),; 
// 检查 检测 到 的 对 象 的 数目 
if (num _ objects < 2 )1 
cout << "No objects detected" << endl ; 
return.; 
}elsef 
cout << "Number of objects detected: " << num objects - 1 << endl; 


} 
// 创建 彩色 对 象 的 输出 图 像 并 显示 区 域 
Mat output= Mat::zeros(img.rows,img.cols, CV 8UC3 1) ; 
RNG ng( OXxFFFFFFFF ) ; 
for (int i=1; i<num objects; i++){ 
COUt, ze ODEet "ee 1 ee " Wth PDOs :ae Dentrorda,. taporntads (a 
<< " with area " << stats.at<int>(i, CC STAT AREA) << endl:; 


Mat mask= labels==1; 

output .SetTo (randomColor (rng), mask),; 

// 使 用 区 域 绘制 的 文本 

stringstream ss,; 

SS << "area: " << Stats.at<int>(i, CC STAT AREA), 


putText (output, 
S99tr(})., 
centroids.at<Point2d> (i), 
FONT HERSHEY SIMPLEX, 
i 


Scalar (255,255,255)),， 


} 


imshow ("Result", output).; 


} 


与 在 非 统计 函数 中 一 样 ， 我 们 分 析 上 述 代码 。 它 叫 连 通 算法 ， 但 是 在 这 种 情况 下 ， 通 过 使 用 统计 函数 检查 是 否 可 以 检测 到 多 
个 对 象 : 


Mat labels, stats, centroids; 
int num objects= connectedComponentsWithStats(img, labels, stats, 
centroids); 
// 检查 检测 到 的 对 象 数目 
if (num objects < 2 ){ 
Cout << "No objects detected" << endl]l,; 
return,; 


lelself 
cout << "Number of objects detected: " << num objects - 1 << endl; 


有 两 个 更 多 的 输出 结果 : stats 和 centroids 变 量 。 然 后 ， 将 通过 命令 行为 每 个 检测 到 的 标签 展示 其 质心 和 区 域 : 
for (int i=1; i<num objects; :i++){ 


out. ee "ODIeoE oe 1 SE ™ Wt Dos ™ ee CBRNEIOLAD. AtePomt2dsld) 
<< " with area " << stats.at<int>(1i, CC STAT AREA) << endl,; 


为 了 使 用 stats.at (1，CC _STAT AREA) 列 常数 提 取 区 域 ， 可 以 检查 stats 变 量 。 


正如 前 面 提 到 的 ,绘制 用 编号 标记 的 目标 的 输出 图 像 : 


Wl 


O 


Mat mask= labels==1; 
output .setTo(randomColor (rng), mask); 


最 后 ， 将 分 割 目标 的 质心 ， 例 如 区 域 等 信息 ， 并 添加 到 图 像 中 。 要 做 到 这 一 点 ， 通 过 putText 国 数 使 用 stats 和 centroid 变 
首先 ， 需 要 创建 stringstream， 并 且 添 加 统计 区 域 信息 : 


// 使 用 区 域 绘制 的 文本 
stringstream ss; 


SS << "area: " << Stats.at<int>(i, CC STAT ARERA) ; 


然后 ， 使 用 质心 作为 使 用 putText 的 文本 位 置 : 


putText (output, 
ss.str(), 
centroids.at<Point2d> (1), 
FONT HERSHEY SIMPLEX, 
0 .4,， 
Scalar (255,255,255)).; 


这 个 函数 的 运行 结果 如 下 图 所 示 : 
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findContours 算 法 是 分 割 目标 最 常用 的 OpenCV 算 法 之 一 。 这 个 算法 自 OpenCV 第 一 版 被 加 入 ， 并 为 开 友 人 员 提 供 更 多 的 


言 妃 和 摘 述 ， 如 形状 、 拓 扑 组 织 ， 等 等 : 


Vold findContours (InputOutputArray image, OutputArrayOfArrays 
contours, OutputArray hierarchy, int mode, int method, Point 


offset=Point () ) 
接 下 来 分 析 该 算法 的 每 个 参数 : 
Image: 二 进 制 输入 图 像 。 
. Contours: 输出 轮 廊 ， 每 个 检测 出 来 的 输出 轮廓 是 点 向 量 。 
.Hietatchy: 这 是 存储 轮 亡 层次 结构 的 可 选 输出 向 量 。 它 也 是 可 以 得 到 每 个 轮廓 之 间 的 关系 的 图 像 拓 扑 。 
: Mode: 它 是 用 于 检索 轮 廊 的 方法 : 
-RETR_EXTERNAL: 这 检索 只 是 外 部 轮 廊 。 


. RETR_LIST: 这 检索 所 有 没有 建立 层次 结构 的 轮 廊 。 


次 结构 的 顶层 
-RETR_TREE: 这 检索 所 有 轮 廊 ， 并 创建 轮 廊 之 间 完 整 的 层次 结构 。 
: Method: 这 允许 执行 检索 轮廓 形状 的 近似 方法 : 
“ CV_CHAIN_APPROX_NONE: 这 并 不 适用 于 近似 任何 轮廓 和 存储 所 有 的 轮廓 点 


. CV_CHAIN_APPROX_SIMPLE: 这 压缩 存储 水 平 、 重 直 和 对 角 线 段 的 起 始点 和 结束 点 。 


.CV_CHAIN_APPROX_TC89_ L1，CV_CHAIN_APPROX_TC89_KCOS: 这 适用 于 Teh-Chin chain 近 似 算 法 。 


. Offset: 这 是 用 于 转移 所 有 轮 廊 的 可 选 点 值 。 当 ROI 工 作 中 ， 这 是 非常 有 用 的 ， 而 且 需 要 检索 全 局 位 置 。 


KS > 输入 图 像 可 以 通过 findContouts 函 数 修改 。 如 有 和 需要， 在 发 送 到 这 个 函数 之 前 ， 可 以 创建 图 像 副 本 。 


学 习 了 findContours 国 数 的 参数 ， 我 们 可 以 将 它们 用 于 以 下 示例 : 


. RETR_CCOMP: 这 检索 有 两 个 级 别 的 层次 结构 的 所 有 轮廓 : 外 部 和 孔 。 如 果 另 一 个 对 象 在 一 个 洞 里 ， 那 么 将 其 放 在 


mm 


Vold FindContoursBasic (Mat img) 
Vector<vector<Point> > contours; 
findContours (img, contours, RETR EXTERNAL, CHAIN APPROX SIMPLE).; 
Mat output= Mat::zeros(img.rows,img.cols, CV 8UC3); 
// 检查 检测 到 的 对 象 的 数目 


if (contours.size() == 0 ){ 
cout << "No objects detected" << endl; 
return,; 
lelsel 
cout << "Number of objects detected: " << contours.size() << endl; 


| 


RNG rng( OXFFFFFFFF ) ; 

for(int i=0; i<contours.size(); i++) 
drawContours(output; contours, 1, randomColor (rng)); 

ijmshow ("Result", output).; 


接 下 来 逐 行 分 析 上 述 代码 。 


在 例子 中 ， 并 不 需要 任何 层次 结构 ， 所 以 只 需要 检索 外 部 轮廓 中 所 有 可 能 的 目标 。 因 此 ， 可 以 使 用 RETR_EXTERNAL 模 式 ， 
并 使 用 CHAIN_APPROX_SIMPLE 方 法 编码 方案 作为 基本 轮廓 编码 方案 : 


Vector<Vector<Polnt> > contours,; 
Vector<Vec41> hierarchy,; 


findContours (img, contours, RETR EXTERNAL, CHAIN APPROX SIMPLE).,; 


类 似 于 前 面 提 到 的 连通 区 域 实例 ， 第 一 步 是 检查 检索 到 多 少 轮廓 。 如 果 没 有 ， 则 退出 冰 数 : 


// 检查 检测 到 的 对 象 的 数目 


if (contours.size() == | 
Cout << "No objects detected" << endl; 
return,; 
lelself 
cout << "Number of objects detected: " << contours.size() << endl; 


最 后 ， 绘 制 出 每 个 检测 到 的 轮廓 ， 并 在 输出 图 像 中 用 不 同 颜色 绘制 。OpenCV 提 供 了 立 数 来 做 到 这 一 点 ， 它 绘制 友 现 
contours 图 像 的 结果 : 


for(int i=0; i<contours.size(); i++) 


drawContours (output, contours, 1, randomColor (rng)); 
1mBncw "Resgsult", output)» 


DrawContours 国 数 包 括 以 下 参数 : 
* Image: 这 是 用 来 绘制 轮 亡 的 输出 图 像 。 


. Contours: 这 是 轮廓 向 量 。 


.Contout index: 这 是 一 个 指示 轮廓 绘制 的 数字 ; 如 果 是 负数 ， 则 绘制 所 有 的 轮 万 。 
“ Color: 这 是 用 来 绘制 轮 慷 的 磊 色 。 

Thickness: 如 果 这 是 负数 ， 那 么 轮 廊 中 充满 着 选择 的 颜色 。 

“ Line type: 想 使 用 的 抗 锯 站 或 其 他 绘制 方法 

" Hietatchy: 这 是 一 个 可 选 参数 ， 当 只 需要 绘制 部 分 轮廓 时 ， 可 以 使 用 它 。 


. Max level: 这 是 一 个 可 选 和 参数 ， 当 层次 结构 参数 可 用 时 ， 可 对 它 进 行 设置 。 如 果 它 被 设置 为 0， 只 绘制 指定 的 轮 慷 ; 如 果 
它 被 设置 为 1， 这 个 函数 绘制 当前 轮廓 以 及 蛤 套 。 如 果 它 被 设置 为 2， 算 法 绘制 所 有 指定 轮廓 层次 结构 。 


. Offset: 这 是 一 个 可 选 的 参数 ， 用 来 改变 轮廓 。 


示例 的 结果 如 下 图 所 示 : 


一 值 图 像 之 后 ， 可 以 看 到 三 种 不 同 的 算法 ， 用 它们 来 分 离 和 分 割 图 像 中 的 对 象 ， 允许 我 们 隅 离 单个 对 象 以 便 操作 或 提取 对 象 


整个 过 程 如 下 图 所 示 : 


5.5 ”总 绪 
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在 本 章 中 ， 我 们 探讨 了 在 受 控 情况 下 ， 通 过 摄像 机 担 摄 不 同 目标 分 割 的 基本 知识 。 


我 们 还 学 到 了 如 何 去 除 背 景色 及 光 ， 以 便 通 过 去 除 品 声 和 三 种 不 同 的 算法 来 二 值 图 像 。 这 些 方 法 常用 来 分 割 和 分 离 图 像 中 的 
对 象 ， 隔 离 对 象 可 以 操作 或 提取 特征 。 最 后 ， 提 取 图 像 中 的 物品 ， 提 取 每 个 物品 的 特征 可 用 于 训练 机 器 学 习 系统 。 


下 一 章 将 会 预测 任何 图 像 中 的 目标 分 类 ， 并 通过 机 器 人 或 任何 其 他 系统 分 拣 它们 ， 或 检测 目标 是 否 在 正确 的 承载 市 上 ， 然 后 
通知 人 去 分 拣 它 们 。 


第 6 章 “ 学 习 目 标 分 类 


上 一 章 介 绍 了 对 目标 分 割 和 检测 的 基本 概念 。 这 意味 着 我 们 可 以 分 割 一 幅 图 像 上 出 现 的 目标 并 进一步 处 理 和 分 析 。 


这 草 涵 蓝 了 如 何 对 被 分 割 的 目标 体 进 行 分 类 的 相关 知识 。 为 了 区 分 每 一 个 目标 ， 我 们 必须 训练 系统 去 学 习 通 过 必要 参数 来 决 
定 应 将 哪些 特定 的 标签 分 配给 检测 目标 (基于 在 训练 阶段 考虑 到 的 不 同类 别 ) 。 


本 章 将 介绍 机 器 学 习 用 不 同 标签 区 分 图 像 的 基本 概念 。 


我 们 将 创建 一 个 类 似 第 5 草 讨 论 的 基于 分 割 算 法 的 基本 应 用 。 这 个 分 割 算法 提取 图 像 中 包含 对 象 的 部 分 。 对 每 一 个 对 象 提取 
不 同 的 特征 ， 并 且 使 用 机 器 学 习 算 法 来 分 析 它 们 。 使 用 机 器 学 习 算法 能 在 用 户 图 形 界 面 显示 输入 图 像 中 每 个 目标 的 标签 ， 方 便 用 


尸 浏 哆 。 


在 本 章 中 ， 将 涵盖 以 下 的 主题 和 算法 : 


常见 的 Pu 习 算 法 和 流程 
特征 提取 
` 支持 向 量 机 


- 训练 和 预测 


6.1 介绍 机 器 学 习 的 概念 


机 器 学 习 是 个 很 早 丈 被 提出 的 理念 ，1959 年 Arthur 9amuel 将 机 器 学 习 定 义 为 : “不 通过 编程 使 计算 机 获得 学 习 能 力 的 领 
域 ”。Tom.M.Mitchel 提 出 了 一 个 更 正式 的 定义 ， 他 将 样本 或 经 验 的 概念 、 标 签 和 性 能 测量 联系 在 了 一 起 。 


a 
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A 一 Arthur Samuel 定 义 的 机 器 学 习 发 表 于 《IBM Journal of Research and Development》 (第 3 卷 ， 第 3 期 ) ， 第 210 页 “Some 


Studies in Machine Learning Using the Game of Checkets ”这 篇 文章 上 ， 并 于 同年 被 《The New Yorker》 和 《Office Management》 转 
载 。 


Tom.M.Mitchel 提 出 的 更 正式 的 定义 发 表 于 McGray Hill 出 版 社 1997 出 版 的 《Machine Learning Book》 一 书 中 
(http://www.cs.cmu.edu/afs/cs.cmu.edu/user/mitchell/ftp/mlbook.html) 。 


机 器 学 习 包含 了 模式 识别 和 人 工 智 能 的 学 习 理 论 ， 并 且 和 计算 统计 学 相关 。 


机 器 学 习 应 用 于 数 百 个 领域 中 ， 如 OCR (Optical Character ee 光学 字符 识别 ) 、 垃 圾 邮件 过 滤 、 搜 索引 掌 以 
及 成 干 上 万 个 计算 机 视觉 应 用 。 机 器 学 习 算 法 对 输入 图 像 中 出 现 的 目标 进行 分 类 这 些 都 会 在 本 章 详细 探讨 。 


根据 机 器 学 习 算 法 如 何 从 数据 或 样本 中 学 习 ， 我 们 可 以 把 它们 分 为 三 


“ 指导 学 习 : 计算 机 学 习 一 组 被 标记 的 数据 。 目 标 是 学 习 的 模型 和 规则 ， 让 计算 机 映射 数据 和 输出 标签 的 结果 之 间 的 关系 的 


` 无 指导 学 习 : 没有 指定 标签 ， 计 算 机 试图 发 现 输入 数据 的 输入 结构 。 
. 强化 学 习 : 计算 机 在 一 个 动态 的 环境 进行 交互 ， 实 现 它 的 目标 ， 并 从 它 的 错误 中 学 习 。 
根据 所 需 的 结果 ， 机 器 学 习 算 法 可 以 分 为 以 下 几 类 : 


分 类 算法 : 在 分 类 算法 中 ， 输 入 的 空间 可 以 分 为 N 个 类 别 ， 一 个 给 定 样本 的 预测 结果 是 这 些 受 训 类 别 之 一 。 这 是 一 个 最 常 


算 
用 的 类 别 。 一 个 典型 的 例子 是 垃圾 邮件 过 滤 和 系统， 邮件 只 有 两 类 : 垃圾 邮件 和 非 垃 圾 邮件 。 田 一 个 例子 是 OCR， 它 只 识别 n 个 字 


符 ， 而 每 个 字符 是 一 个 分 类 。 


` 回归 算法 : 回归 算法 的 输出 是 一 个 连续 的 值 ， 而 不 是 一 个 离散 的 值 ， 比 如 一 个 分 类 算法 的 结果 。 例 如 回归 算法 可 以 通过 提 


供 的 房子 大 小 ， 年 份 和 位 置 预测 房子 的 价格 。 
聚 类 彰 法 : 将 输入 用 无 指导 学 习 分 为 N 组 。 
" 冤 度 估计 算法 : 这 个 算法 通过 输入 找 出 概率 分 布 。 


在 例子 中 ， 我 们 将 通过 一 个 训练 数据 库 (市 标签 ) 来 训练 模型 使 用 一 个 指导 分 类 学 习 算 法 ， 最 后 输出 模型 的 结果 是 其 中 一 个 
标签 的 预测 值 。 


机 器 学 习 是 更 现代 的 人 工 智 能 和 统计 的 方式 ， 同 时 涉及 技术 。 


机 器 学 习 中 包含 多 种 途径 和 万 法 ， 其 中 一 些 使 用 在 SVM (支持 向量 机 ) 和 ANN (人 工 神 经 网 络 ) ， 如 K 近 邻 法 、 决 策 树 ， 
或 深度 学 习 ， 而 在 某 些 情况 下 ， 大 型 神经 网 络 算法 被 用 于 卷 积 中 。 


这 些 方法 和 手段 被 OpenCV 支 持 、 实 现 ， 并 很 好 地 记录 。 下 一 节 将 介绍 这 些 。 
OpenCV 实 现 了 8 种 机 器 学 习 算 法 ， 它 们 都 继承 自 StatModel 类 : 


人 工 神 经 网 络 


` logistic 回 归 分 析 
` 一 般 贝 叶 斯 分 类 器 


` 支持 向 量 机 


LE 
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一 阅读 OpenCV 关 于 机 器 学 习 的 文档 页 可 以 获得 每 个 算法 的 更 多 细节 : http://docs.opencv.org/trunk/dc/dd6/ml_intro.html。 
可 以 在 下 图 中 看 到 机 器 学 习 类 的 层次 结构 : 


statModel 类 提供 了 对 机 器 学 习 参 数 和 训练 数据 十 分 重要 的 read/write 阔 数 。 


机 器 学 习 中 ， 最 耗 时 的 部 分 是 training 国 数 。training 函 数 根据 数据 的 大 小 和 机 器 学 习 结构 的 复杂 度 可 能 人 花费 数秒 到 数 周 ， 
甚至 数 月 。 举 例 来 说 ， 深 入 学 习 算 法 和 大 型 神经 网 络 结构 可 能 包含 了 超过 十 万 张 图 像 。 通 常 深入 学 习 算 法 使 用 并 行 硬件 处 理 ， 例 
如 GPU 或 者 图 形 显卡 的 CUDA 技 术 可 以 降低 training 函 数 耗 时 。 


这 意味 着 不 能 每 次 启动 应 用 的 时 候 训 练 机 器 算法 ， 推 荐 做 法 是 保存 算法 被 训练 的 模型 ， 因 为 机 器 学 习 所 有 的 训练 /预测 的 参 
数 都 将 被 保存 。 这 样 当下 一 次 局 动 的 时 候 只 需要 读 取 保存 的 模型 ， 而 不 需要 重复 训练 算法 。 


StatModel 是 需要 通过 它 的 每 个 具体 实现 来 实现 的 接口 ， 它 的 两 个 关键 尔 数 是 train 和 predict。 


train 国 数 主 要 用 于 从 训 


法 : 


4 
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bool train(const Ptr<TrainData>& trainData, int flags=0 ) ; 
bool train(InputArray samples, int layout, InputArray responses); 


Ptr< Tp> train(const Ptr<TrainData>& data, const Tp::Params& p, int 
flags=0 ); 


Ptr< Tp> train(InputArray samples, int layout, InputArray responses, 
const Tp::Params& p, int flags=0 ) ; 


trainData: 这 是 可 以 从 TrainData 类 被 读 取 或 创建 的 训练 数据 。 这 个 类 最 早出 现在 OpenCV 3 中 ， 它 帮助 开发 者 创建 训练 数 
据 ， 因 为 不 同 的 算法 需要 不 同类 型 的 数据 结构 来 训练 和 预测 ， 例 如 ANN 算 法 。 


-Samples: 这 是 保存 训练 数组 样本 的 数组 ， 如 通过 机 器 学 习 算 法 所 要 求 的 格式 的 训练 数据 。 

` layout: 有 两 种 布局 : ROW_SAMPLE (训练 样本 是 行 矩 阵 ) 和 COL SAMPLE (训练 样本 是 列 矩 阵 ) 。 
' responses: 这 是 个 与 采样 数据 相关 的 响应 向 量 。 

. p: 这 是 StatModel 的 参数 。 

` flags: 这 些 是 由 每 个 方法 定义 的 可 选 标志 。 

predict 函 数 要 简单 得 多 ， 只 有 一 种 调用 方法 : 


float StatModel::predict (InputArray samples, OutputArray 
results=noArray(), int flags=0 ) 


samples: 要 预测 的 输入 采样 。 允 许 有 一 个 或 多 个 要 预测 的 数据 。 
. fesults: 每 个 输入 行 样本 (由 先前 训练 的 模型 计算 出 的 算法 ) 的 结果 


. flags: 模型 依赖 的 可 选 标志 。 一 些 模型 如 Boost、SVM 识 别 StatModel: : RAW_OUTPUT 标 志 ， 这 使 得 这 一 方法 返回 原始 结 
果 (总 和 ) ， 而 不 是 类 的 标签 。 


StatModel 类 提供 了 另外 一 些 有 用 的 方法 : 

. isTrained () : 如 果 模 型 被 训练 了 ， 返 回 true。 

* isClassifier () : 如 果 这 个 模型 是 分 类 器 则 返回 ttue， 如 果 是 回归 则 返回 false。 
:petVarCount () : 返回 在 训练 样本 中 变量 的 个 数 。 

“save (const string&filename) : 用 文件 名 保存 模型 。 


Ptr<_Tp>load (const string&zfilename) : 以 文件 名 读 取 模型 ， 例 如 : Ptr<SVM>svm=StatModel: 
load<SVM> ("my_svm model.xml") ; 。 


:calcEttof (const Ptr<TrainData>&data，bool test，OutputAttay tesp) : 返回 测试 训练 模型 的 错误 。 如 果 测 试 为 tue， 则 这 个 


方法 计 和 前 来自 所 有 训练 数据 的 测试 子 集中 的 错误 ， 否 则 它 只 计算 数据 的 训练 子 集 的 错误 。 最 后 tesp 是 可 选 的 输出 结果 。 


6.2 ”计算 机 视 哆 和 机 器 学 习 的 工作 流程 


市 有 机 器 学 习 的 计算 机 视 总 应 用 有 通用 的 基本 结构 。 这 种 结构 家 分 割 成 不 同步 又， 并 人 在 几 乎 所 有 的 计算 机 视觉 应 用 中 重复 使 
用 。 下 图 中 展示 所 涉及 的 不 同步 又 : 


提取 特征 


机 奋 竺 习 分 关 


后 期 处 理 


几乎 所 有 计算 机 视 党 应 用 程序 都 从 对 输入 图 像 的 预 处 理 阶 段 开始 启动 。 预 处 理 涉 及 去 除 光亮 条 件 和 噪声 、 阅 值 、 模 糊 等 。 


在 所 需 图 像 预 处 理 步 又 之 后 ， 第 二 步 是 分 割 。 在 分 割 步骤 中 ， 从 图 像 中 提取 我 们 感 兴趣 的 部 分 ， 并 将 每 个 部 分 分 割 成 独 一 无 
二 的 对 象 。 举 例 来 况 ， 人 脸 识 别 系统 需要 把 脸 和 屏幕 的 其 他 部 分 分 割 开 来 。 


得 到 图 像 内 的 对 象 之 后 ， 需 要 提取 对 象 的 特征 ， 特 征 是 物体 特点 的 向 量 。 一 个 特征 可 以 描述 物体 ， 可 以 是 物体 的 一 部 分 、 轮 
郝 、 纹 理 图 案 等 。 


现在 得 到 物体 的 描述 符 ， 描 述 符 描述 了 一 个 对 象 的 特征 。 为 了 使 用 这 些 描述 符 来 训练 模型 或 预测 其 中 的 一 个 模型 ， 需 要 通过 
成 干 上 万 次 图 像 预 处 理 、 提 取 特 征 来 建立 一 个 关于 特征 的 大 数据 集合 ， 并 且 通 过 选取 的 训练 模型 来 提取 特征 ， 具 体 如 下 图 所 示 : 


训练 数据 集 


训练 一 个 数据 集合 时 ， 当 给 出 一 个 新 的 特征 向 量 或 者 未 知 标签 时 ， 模 型 学 习 所 有 需要 预测 的 参数 ， 具 体 如 下 图 所 示 : 


机 器 学 习 算法 


生成 


未 知 样本 、 ” 妈 回 


夫 得 预测 值 后 ， 有 时 需要 对 输出 数据 进行 后 期 处 理 ; 例如 ， 合 并 多 个 分 类 以 减少 预测 误差 或 合并 多 个 标签 。 一 个 简单 的 样本 


是 OCR (光学 字符 识别 ) ， 它 的 分 类 结果 是 每 个 字符 ， 通 过 组 合 字 符 ， 我 们 构造 了 一 个 单词 。 这 意味 着 可 以 建立 一 个 后 期 处 理 
方法 ， 用 来 纠正 检测 到 的 单词 错误 。 


在 学 习 了 这 个 关于 计算 机 视觉 中 机 器 学 习 的 简短 介绍 之 后 ， 我 们 将 了 解 如 何 使 用 机 器 学 习 实现 自己 的 应 用 程序 ， 对 传输 带 上 
的 对 象 进 行 分 类 。 这 个 分 类 使 用 支持 向 量 机 作为 分 类 方法 ， 并 且 学 习 如 何 使 用 它 。 其 他 机 器 学 习 算法 有 非常 相似 的 用 处 。 
OpenCV 的 文档 有 关于 所 有 机 器 学 习 算法 的 详细 信息 ， 


6.3” 目 动 检测 目标 分 类 的 示例 


继续 上 一 小 节 的 例子 ， 传 输 审 上 有 三 种 不 同类 型 的 对 象 螺母、 螺丝 钉 和 螺丝 圈 ) ， 通 过 计算 机 视 完 技术 的 目 动物 体 识别 分 
类 能 够 识别 出 每 个 物体 ， 并 通知 给 机 器 人 或 类 似 的 委 置 以 将 每 个 物体 放 入 不 同 的 盒子 。 


在 第 5 章 中 讲述 了 输入 图 像 的 预 处 理 ， 提 取 图 像 的 兴趣 区 域 ， 并 且 使 用 不 同 的 扩 术 分 割 每 个 目标 。 现 在 将 实践 前 面 进 述 的 所 
有 概念 。 人 在 本 实例 中 ， 移 进行 提取 特征 ， 对 每 个 物体 进行 分 类 后 让 机 器 人 把 每 个 物体 放 入 不 同 的 盒子 中 。 在 这 个 应 用 中 ， 仅 显示 
每 个 图 像 的 标签 ， 但 是 我 们 能 发 送 图 像 位 置 和 标签 给 例如 机 器 人 这 样 的 设备 。 


下 一 步 的 目标 是 从 一 个 有 几 个 物体 的 输入 图 像 中 显示 每 个 物体 的 名 字 ， 如 下 图 所 示 。 然 而 ， 为 了 学 习 整 个 过 程 的 每 一 步 ， 本 
例 将 训练 系统 去 展示 每 一 个 图 像 是 如 何 被 训练 的 : 先 创建 一 个 坐标 图 以 显示 每 个 物体 ， 然 后 用 不 同 的 颜色 代表 我 们 将 使 用 的 预 处 
理 输 出 图 像 的 功能 ， 最 终 得 到 如 下 图 所 示 的 输出 分 类 : 
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示例 应 用 中 执行 了 以 下 的 步骤 : 
1. 对 每 个 图 像 的 训练 : 
` 预 处 理 图 像 。 
:分割 图 像 。 
2. 对 图 像 中 的 每 个 物体 : 
: 提取 特征 。 
. 将 带 标签 的 物体 添加 到 训练 特征 向 量 中 。 
3. 创 建 SVM 模型 。 
4. 通 过 训练 特征 向 量 训练 我 们 的 SVM 模型 。 
5. 对 预 处 理 输 入 图 像 进 行 分 类 。 
6 .分 割 输入 图 像 。 
7. 对 检测 到 的 每 个 物体 : 
: 提取 特征 。 
. 预测 SVM 模 型 。 
在 输出 图 像 中 绘制 结果 。 


预 处 理 和 分 割 阶段 将 使 用 在 第 5 草 中 讨论 的 代码 ， 我 们 将 解释 如 何 提取 特征 并 创建 训练 和 预测 模型 所 需 的 载体 。 


6.4 “特征 提取 


现在 开始 提取 每 个 物体 的 特征 。 我 们 将 抽取 一 个 简单 但 足够 取得 优质 结果 的 功能 ， 以 帮助 了 解 特征 向 量 的 概念 。 在 其 他 解决 
方案 中 可 以 获取 更 复杂 的 特性 ， 例 如 纹理 摘 述 符 、 轮 廓 摘 述 符 等 。 


在 本 例 中 ， 只 有 螺母 、 螺 丝 圈 、 螺 丝 钉 这 三 种 类 型 的 对 象 在 不 同 的 位 置 。 所 有 这 些 可 能 的 对 象 和 位 置 如 下 图 所 示 : 
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接 下 来 探索 良好 的 特性 ， 它 有 助 于 机 器 更 好 地 识别 物体 : 


一 个 对 象 的 区 域 


: 宽 高 比 (边界 憩 形 的 宽 除 以 高 ) 


孔 的 数量 


- 轮 慷 边 的 数量 


这 些 特征 可 以 很 好 地 摘 述 一 个 物体 ， 如 果 使 用 上 面 所 有 的 特征 ， 分 类 产生 的 锁 误 极 低 。 然 而 ， 在 本 例 中 仅 使 用 前 两 个 特征 : 
区 域 和 宽 高 比 ， 这 样 的 好 处 是 能 把 这 些 放 入 平面 的 图 形 中 来 正确 地 显示 物体 的 特征 值 ， 以 达到 学 习 的 目的 。 这 样 我 们 能 在 图 形 界 
面 中 从 所 有 物体 中 认 出 一 个 物体 。 


在 仅 有 一 个 物体 将 以 白色 的 形式 出 现在 黑色 背景 下 ， 使 用 白色 或 者 黑色 的 输入 ROI 图 像 提 取 这 些 特征 。 这 就 是 第 5 章 中 所 提 
到 的 分 割 的 结果 。 例 子 中 将 使 用 findCountours 算 法 来 分 割 物 体 ， 并 且 以 此 为 目的 创建 ExtractFeatures 了 为 数 : 


Vector< Vector<fEloat> > ExtractFeatures (Mat img, vector<int>* 
left=NULL, vector<int>* top=NULDL) 


Vector< vector<float> > output; 
Vector<vector<Point> > Contours ; 
Mat input= img.clone(); 


Vector<Vec41> hierarchy,; 
findContours (input, contours, hierarchy, RETR CCOMP, CHAIN APPROX 


SIMPLE) ; 
// 检查 被 检测 到 的 物体 个 数 
if (contours.size() == 0 ){ 


recurn OUEDUEC 


} 


RNG rng( OxFFFFFFFF ) ; 
for (int i=0; i<contours.size(); i++)f{ 


Mat mask= Mat::zeros(img.rows, img.cols, CV 8UC11) ; 

drawContours (mask, contours, 1, Scalar(l1), FILLED, LINE 8, 
nierarchy; Tj 

Scalar area s= suml(mask),; 

float area= area S[0j; 


if (area>500){ // 如 果 area 大 于 最 小 值 


RotatedRect r= minAreaRect (contours [i]).; 

float width= r.size.width. 

float height= r.size.height, 

float ar=(width<height) ?height/width:width/height.; 


vector<float> row; 

row.push back (area) ; 

row.push back (ar); 

output .push back (Yow) ; 

if (left!=NULL)f 
left->push back( (int)r.center .x); 


if (top!=NULL){ 


top->push back( (int}r.center.y); 


miw->addImage ("Extract Features", mask*255),，; 
miw->render(); 
waltKev (10) ; 


} 
本 
接 下 来 详细 分 析 上 述 代码 : 


这 段 代 码 创 建 的 输入 是 一 个 图 像 ， 输 出 是 关于 物体 距离 左 侧 和 距离 项 部 位 置 的 数组 的 立 数 。 这 个 水 数 党 用 于 给 每 个 对 象 绘制 
标签 。 函 数 的 输出 是 浮 点 数 向 量 的 同 量 ， 换 言 之 ， 它 是 一 个 每 行 包 合 检 测 出 来 所 有 物体 特征 的 算 阵 。 


下 面 创 建 一 个 绘制 每 个 物体 标 答 的 函数 : 


1. 首 先 ， 创 建 常 用 于 FindContours 分 割 算法 的 向 量 和 轮廓 输出 变量 ， 然 后 复制 一 份 输入 图 像 防止 OpenCV 的 findContours 
孙 数 对 输入 图 像 进 行 修改 : 


Vector< Vector<float> > output,; 
Vector<Vector<Polnt> > contours,; 
Mat input= Img.CLone () ; 
Vector<Vec41> hierarchy; 


findContours (input, contours, hierarchy, RETR CCOMP， 
CHAIN APPROX SIMPLE) ; 


2. 现 在 可 以 使 用 findContours 遂 数 去 检索 图 像 中 的 每 个 目标 。 如 果 没 有 获得 任何 轮廓 ， 就 会 返回 一 个 空 的 矩 阵 。 


if (contours.size() == 0 ){ 


ecUTI OUCOUL’, 


} 


3. 在 黑色 图 像 上 要 绘制 的 每 个 目标 轮廓 使 用 色 值 为 1。 这 是 计算 所 有 特征 的 蒙 版 : 


for(int i=0; i<contours.size(); i++)f{ 
Mat mask= Mat::zeros(img.rows, img.cols, CV 8UC]1); 


drawContours (mask, contours, 1, Scalar(1), FILLED, LINE 8, 
hierarchy, 1); 


4. 用 色 值 1 去 绘制 内 框 是 十 分 重要 的 ， 因 为 可 以 通过 对 轮廓 内 所 有 值 求 和 计算 出 这 个 区 域 的 大 小 : 


Scalar area s= sum(mask),; 
float area= area 510]; 


这 个 区 域 是 第 一 个 往 选 特征 。 通 过 使 用 区 域 的 值 作为 过 滤 参 数 ， 移 除 不 需要 的 小 物体 。 在 区 域内 小 于 最 小 区 域 大 小 的 目标 
将 被 废 借 。 过 滤 后 ， 第 二 个 筛选 特征 ， 物 体 的 长 客 比 将 被 创建 。 这 意味 着 最 大 长 度 或 营 度 将 被 分 割 成 最 小 的 长 度 或 宽度 ， 这 个 特 
征 将 螺丝 钉 从 其 他 物体 中 很 轻易 地 区 分 出 来 : 


if (area>MIN ARERA) { // 如 果 区 域 大 于 最 小 区 域 
RotatedRect r= minAreaRect (contours [1] ) ; 
float width= r.size.width. 
float height= r.size.height; 
float ar=(width<height) ?height/width:width/height,; 


6. 现 在 只 需要 将 刚刚 获取 的 特征 添加 到 输出 向 量 中 : 创建 一 个 行 浮 点 数 向 量 并 复制 ， 然 后 作为 输出 数组 输出 : 


Vector<float> row; 
row.push back (area); 
row.push back(ar) ; 
output .push back (row); 


7. 如 果 对 左 和 对 项 参数 被 忽略 了 ， 将 左上 角 的 值 添 加 到 和 输出 中 : 


if (left!=NULL)T 
left->push back( (int)r.center .XI) ; 
| 
if (top!=NULL){ 
top->push back ((int)}r.center.y); 


| 


8. 最 后 将 家 分 割 的 目标 输出 到 窗口 反馈 给 用 户 ， 当 完成 图 像 中 所 有 物体 的 识别 ， 将 返回 得 出 的 特征 向 量 : 


miw->addImage ("Extract Features'", 
miw->render(); 
walitKey(10),; 


LoLurn OULEDUEC 


mask*255).， 


现在 对 输入 图 像 特征 的 提取 已 经 完成 ， 下 一 步 将 介绍 如 何 训练 模型 。 


| 


6.4.1 圳 


练 SVM 模 型 


本 小 刷 将 使 用 一 个 学 习 撒 导 模型 ， 然 后 需要 获得 每 个 物体 的 图 像 和 相应 的 标签 。 在 数据 集合 中 没有 图 像 的 最 小 数量 。 如 果 训 | 
练 更 多 图 像 ， (在 大 部 分 情况 下 ) 将 获得 更 好 的 分 类 模型 。 但 是 训练 简单 的 分 类 使 用 简单 的 模型 束 足 够 了 。 为 了 达到 以 上 目的 ， 
本 例 创建 了 放置 每 种 图 像 的 文件 夹 〈 螺 丝 钉 、 螺 母 、 螺 丝 圈 ) 。 


对 文件 夹 中 的 每 个 图 像 都 需要 提取 特征 ， 并 加 到 训练 特征 矩阵 中 ， 与 此 同时 需要 为 每 一 行 创建 一 个 新 的 市 标签 向 量 ， 以 对 应 
每 个 训练 矩阵 。 


为 了 评估 系统 的 可 靠 性 ， 需 要 将 一 定数 量 的 图 像 分 隅 成 文件 夹 用 于 测试 和 训练 目的 。20 幅 图 像 被 分 隅 出 来 用 作 测 试 
的 用 作 训 练 。 然 后 ， 需 要 创建 两 个 文件 夹 和 两 个 数据 集 分 别 用 于 训练 和 测试 。 


太刀 力 
下 面 来 分 析 一 下 代码 。 前 先 创建 一 个 模型 ， 并 声明 这 个 模型 为 全 局 变量 。OpenCV 使 用 Ptr 作 为 模板 类 的 指针 : 
Ptr<SVM> Svm; 


在 声明 了 新 的 SVM 模型 指针 后 。 创 建 trainAndTest 函 数 来 创建 并 且 训 练 模型 : 


void trainAndTest ( ) 


人 


Vector< float > trainingData,; 
Vector< int > responsesData,; 
vector< float > testData; 

vector< float > testResponsesData; 


int num for test= 20; 


// 获取 螺母 的 图 像 
readFolderAndExtractFeatures("../data/nut/tuerca %04d.pgm", 0, 
num for test, trainingData, responsesData, testData, 
testResponsesData); 


// 获取 并 处 理 螺 丝 圈 的 图 像 
readFolderAndExtractFeatures('"../data/ring/arandela %04d.pgm", 
1, num for test, trainingData, responsesData, testData, 
testResponsesData),; 


// 获取 并 处 理 螺 丝 钉 的 图 像 
readFolderAndExtractFeatures("../data/screw/tornillo %04d.pgm", 
2, num for test, trainingData, responsesData, testData., 
testResponsesData);) 


cout << "Num of train samples: " << responsesData.size() << 
endl; 

Cout << "Num of test samples: " << testResponsesData.size() << 
endl; 


// 合并 所 有 数据 
Mat trainingDataMat (trainingData.size()/2, 2, CV 32FC]1, 
&tLzalnlLngData[0] ) ; 


Mat responses (responsesData.size(), 1, CV 32SC1， 
&reSpPonSsesData [0] ) ; 


Mat testDataMat (testData.size()/2, 2, CV 32FC1，&testData[0] ) ; 


Mat testResponses (testResponsesData.size(), 1, CV 32FC1， 
ttestResponsesDatal0]); 


svm = SVM: :ctreate() ; 
svm->setType (SVM: :C SVC) ; 
svm->setKernel (SVM: :CHI2) ; 


svm->SsetTermCriteria(TermCriteria (TermCriteria: :MAX ITER, 
100, le-6)); 


svm->train (trainingDataMat, ROW SAMPLE, responses); 


if (上 testResponsesData.size()>0) |{ 
cout << "Evaluation" << endl; 
COUL << ==========" << endl,; 
// 测试 ML 模型 
Mat testPredict, 
svm->predict (testDataMat, testPpredict)., 
Cout << "Prediction Done" << endl; 
// 错误 处 理 
Mat errorMat= testPredict!=testResponses; 


float error= 100.0f * countNonZero(errorMat) / 
testResponsesData.size(),; 


COUt << "Error: " << error << "\%" << endl. 
// 标示 错误 训练 数据 


plotTrainData (trainingDataMat, responses, &error); 


lelsef{ 
plotTrainData (trainingDataMat, responses),， 


接 下 来 详细 分 析 上 述 代码 : 
掉 先 创建 变量 来 存储 训练 和 测试 数据 : 


vector< float > trainingData; 
vector< int > responsesData,; 
vector< float > testData,; 

Vector< float > testResponsesData; 


先前 提 到 过 需要 读 取 每 个 文件 夹 的 所 有 图 像 ， 提 取 它 们 的 特征 并 存储 到 训 | 练 或 测试 数据 中 。 使 用 
readFolderAndExtractFeatures 函 数 可 以 达到 这 个 目的 : 


int num for test= 20; 
// 获取 螺母 的 图 像 
readFolderAndExtractFeatures("../data/nut/tuerca %04d.pgm", 0, 
num for test, trainingData, responsesData, testData, 
testResponsesData); 
// 获取 并 处 理 螺丝 圈 的 图 像 
readFolderAndExtractFeatures("../data/ring/arandela %04d.pgm", 
1, num for test, trainingData, responsesData, testData., 
testResponsesData),; 
// 获取 并 处 理 螺 丝 钉 的 图 像 
readFolderAndExtractFeatures("../data/screw/tornillo %04d.pgm", 
2, num for test, trainingData, responsesData, testData, 
testResponsesData),; 


readFolderAndExtractFeatures 函 数 使 用 了 OpenCV 中 的 VideoCapture 国 数 读 取 文件 夹 中 的 所 有 视频 或 者 摄像 机 。 在 每 一 
张 图 像 被 读 取 时 ， 提 取出 特征 然后 加 入 到 相应 的 输出 向 量 中 : 


bool readFolderAndExtractFeatures (string folder, int label, int num 
for test, 


vector<float> &trainingData, vector<int> &responsesData, 
Vector<float> &testData, vector<float> &testResponsesData) 


VideoCapture images; 
if (images .open (folder) ==false) { 
Cout << "Can not open the folder images" << endl, 
return false; 
} 
Mat frame; 
int img index=0; 
while( images.read(frame) ){ 
//// 预 处 理 图 像 
Mat pre= preprocessImage (frame) ; 
// 提取 特征 
Vector< Vector<float> > features= ExtractFeatures (pre),， 
for(int i=0; i< features.size(); i++){ 
if (img index >= num for test) { 
trainingData.push back (features [il [0] ) ; 
trainingData.push back (features [i] [1]) ; 
responsesData.push back (label); 


lelsel 
testData.push back (features [i] [0]) 
testData.push back (features [i] [1]).; 
testResponsesData.push back( (float 
} 
} 
img index++; 


} 


return 七 YUe ; 


r 


)label).， 


把 特征 和 标签 放 入 所 有 向 量 之 后 ， 需 要 将 它们 转换 成 OpenCV 的 mat 格 式 以 便 传输 到 training 函 数 中 : 


// 合并 所 有 数据 
Mat trainingDataMat (trainingData.size()/2, 2, CV 32FC1， 
&tralnlngData [0] ) ; 
Mat responses (responsesData.size(), 1, CV 32SC1， 
&responsesDatal0]); 
Mat testDataMat (testData.size()/2, 2, CV 32FC1，&testData[0] ) ; 


Mat testResponses (testResponsesData.size(), 1, CV 32FC]1, 
&testResponsesDatal0]); 


前 提 及 的 机 器 学 习 模型 ， 在 这 步 中 用 到 了 支持 向 量 机 。 首 先 设置 基本 模型 的 参数 : 


// 设置 SVM 参数 
svm = SVM: :create(); 
svm->setType (SVM: :C SVC); 
svm->setKernel (SVM: :CHI2) ; 
svm->setTermCriteria (TermCriteria(TermCriteria: :MAX ITER, 100, le-6)); 


下 一 步 定 义 SVM 的 类 型 、 使 用 的 内 核 和 停止 学 习 过 程 的 标准 。 在 本 例 中 ， 我 们 将 使 用 最 大 的 迭代 次 数 一 一 100 次 。 更 多 关 
于 参数 的 信息 参照 OpenCV 的 文档 。 当 参数 被 初始 化 之 后 ， 调 用 train 方 法 创建 模型 ， 并 且 使 用 trainingDataMat 并 且 返 回 和 矩 
阵 : 


// 训练 SVM 


svm->train (trainingDataMat, ROW SAMPLE, responses); 


使 用 测试 向 量 (设置 num for test 变 量 大 于 0) 获得 模型 的 近似 误差 。 为 了 获得 误差 估计 值 ， 需 要 预测 所 有 测试 特征 向 量 的 
功能 以 获得 SVM 预测 结果 ， 然 后 将 这 些 结果 与 原来 的 标签 进行 比较 : 


if (testResponsesData.size()>0){ 
Cout << "Evaluation" << endl; 
COUt ee Teasessssseen ee Cndl,; 
// 测试 ML 模型 
Mat testPredict,. 
svm->predict (testDataMat, testPpredict).,; 
cout << "Prediction Done'" << endl; 
// 错误 处 理 
Mat errorMat= testPredict!=testResponses; 


float error= 100.0f * countNonZero(lerrorMat) / 
testResponsesData.size(),; 


COut << "Error: " << error << "\%" << endl.， 

// 标示 错误 训练 数据 

plotTrainData (trainingDataMat, responses, &error),; 
lelsel 


plotTrainData (trainingDataMat, responses); 


使 用 市 有 testDataMat 特 征 的 predict 消 数 和 一 个 新 的 mat 来 预测 结果 。predict 消 数 允 许 同 时 进行 多 次 预测 ， 输 出 一 个 矩阵 
而 不 是 仅仅 输出 一 行 数据 。 


在 预测 完成 后 ， 使 用 testResponses (初始 的 标签 ) 去 取得 testPredict 的 误差 ， 如 果 有 误差 ， 只 需要 计算 差 值 ， 并 用 试验 的 
辟 数 除 以 这 个 值 来 得 到 误差 。 


是 i > 站 攻 Eo 
使 用 新 的 TrainData 类 来 生成 特征 向 量 和 样品 ， 并 在 测试 和 训练 向 量 中 分 离 出 训练 数据 。 


最 后 训 | 练 数据 将 显示 在 一 个 平面 的 坐标 系 上 ，y 轴 代表 宽 高 比 的 特征 ，x 轴 代表 目标 的 区 域 。 每 个 点 都 有 不 同 的 颜色 和 形状 
(又 型 、 方 形 、 圆 形 ) ， 显 示 了 不 同 的 物体 ， 下 图 清楚 地 展示 了 物体 的 分 组 。 


现在 ， 这 个 应 用 的 例子 即将 完成 。 在 训练 完 SVM 模 型 后 便 可 以 区 分 一 个 新 加 入 或 者 未 知 数据 。 下 一 步 是 预测 输入 图 像 上 的 
未 知 物体 。 


6.4.2 ”预测 输入 图 像 


主 消 数 的 功能 是 加 载 输入 图 像 ， 并 且 预 测 其 中 出 现 的 物体 。 如 下 图 所 示 ， 接 下 来 将 使 用 的 输入 图 像 中 有 多 个 不 同 的 物体 : 
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对 于 所 有 的 训练 图 像 ， 需 要 加 载 和 预 处 理 输入 图 像 : 

1. 首 先 加 载 图 像 并 转换 成 灰 度 值 。 

2. 使 用 preprocesslmage 阔 数 应 用 预 处 理 任 务 ， 像 在 第 ?和 章 中 提 到 的 那样 。 
Mat pre= preprocessImage (img); 

3. 使 用 之 前 提 到 的 ExtractFeatures 提 取 所 有 在 图 像 中 的 距 左 上 角 的 特征 向 量 。 


// 提取 特征 
vector<int> pos top, pos left; 


vector< vector<float> > features= ExtractFeatures (pre, &pos 
left, é&pos top); 


4. 对 检测 到 的 每 个 物体 ， 将 它 作 为 特征 行 存 储 ， 然 后 ， 将 每 行 转换 成 有 一 行 和 两 个 特征 的 Mat 数 据 结 构 : 


for(int i=0; i< features.size(); i++){ 
Mat trainingDataMat (1, 2, CV 32FC]1, &features [i] [0]); 


5. 然 后 根据 StatModel 的 SVM ， 使 用 predict 函 数 预测 单个 物体 : 


float result= svm->predict (ralnlngDataMat ) ; 


预测 的 浮 点 型 结果 是 检测 到 对 象 的 标签 。 然 后 ， 为 了 完成 应 用 程序 ， 只 需要 在 输出 图 像 中 绘制 每 个 图 像 的 标签 。 


6. 对 每 个 不 同 的 标签 使 用 stringstream 人 存储 文本 ， 使 用 3calar 存 储 颜 色 : 


stringstream SS ; 

Scalar COLoOL ，; 

if (result==0) { 
COlor= green; // 螺母 
= 

} 

else if (result==1){ 
Color= blue; // 螺丝 环 
Ba we TRINGS ; 

} 

else if (result==2){ 
COlor= red; // 螺丝 钉 
SS << "SCREW",; 


7. 根 据 ExtractFeatures 函 数 检 测 出 来 的 位 置 绘制 每 个 物体 标签 的 文本 : 


putText (ijmg output, 
ss.str(), 
Point2d(pos left [i], pos topli]), 
FONT HERSHEY SIMPLEX, 
0.4, 
SOLory: 


8. 最 后 ， 在 输出 窗口 中 绘制 结 


miw->addImage ("Binary image", pre); 
miw->addImage ("Result", img output).; 
miw->render (); 

walitKey(0); 


这 个 示例 应 用 的 最 终结 果 ， 以 四 个 小 屏幕 的 方式 显示 在 小 窗口 。 左 上 图 是 输入 的 训练 图 像 ， 右 上 图 是 训练 图 像 的 坐标 系 ， 左 
下 图 是 输入 图 像 分 析 的 过 程 ， 右 下 图 是 最 后 预测 的 结果 。 
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本 草 讲述 了 机 器 学 习 模 型 的 基本 知识 ， 并 且 给 出 了 一 个 小 示例 应 用 确保 读者 更 好 地 理解 创建 ML 应 用 所 需 的 基础 知识 。 

机 器 学 习 具 有 复杂 性 ， 并 且 在 不 同 的 应 用 场景 包括 了 不 同 的 技术 (指导 学 习 、 无 指导 学 习 、 聚 集 算法 ， 等 等 ) ， 我 们 还 学 习 
了 如 何 创 建 典 型 的 ML 应 用 ， 并 使 用 SVM 进 行 指导 学 习 。 

机 器 指导 学 习 最 重要 的 概念 是 ， 需 要 有 合适 数量 的 例子 或 者 数据 集 ， 然 后 需要 正确 地 选中 可 以 搬 述 物体 的 特征 。 第 8 章 将 给 
出 更 多 天 于 图 像 特征 的 介绍 ， 最 后 ， 需 要 选取 最 好 的 模型 以 得 出 最 好 的 预测 。 

如 果 无 法 获得 正确 的 预测 ， 我 们 需要 检查 上 述 三 个 概念 ， 然 后 找到 问题 所 在 。 

在 下 一 章 中 将 介绍 应 用 于 视频 监控 应 用 的 背景 降 噪 方法 ， 当 背景 无 法 提供 有 用 的 信息 的 ， 需 要 进行 分 割 以便 更 好 地 选取 目标 
物体 来 分 析 。 


上 一 草 讲 述 了 目标 分 类 ， 以 及 如 何 用 机 器 学 习 来 实现 。 在 本 草 中 ， 将 讲述 如 何 识别 并 跟 中 不 同人 脸 的 部 分 。 下 面 将 从 人 脸 识 
别管 线 和 如 何 完 全 构建 开始 讨论 。 然 后 ， 会 使 用 相 天 库 去 识别 人 脸 部 分 ， 如 眼睛 、 耳 打 、 跨 和 腊 子 。 最 后 将 学 习 如 何人 在 在 线 视 频 
中 用 滑 稿 的 面具 黎 镭 这些 脸 部 器 官 。 


本 章 涵盖 以 下 主题 : 

` 使 用 Haar 级 联 

部 分 图 像 以 及 为 何 需要 它们 

“ 创建 一 个 普通 的 人 脸 识别 管线 

- 识别 并 且 跟 踪 来 自 网 络 摄像 头 视频 流 中 的 人 脸 部 分 ， 如 眼睛 、 耳 条 、 蜡 子 和 嘴 


-在 视频 中 自动 地 履 盖 上 面具 或 太阳 镜 ， 或 者 在 人 脸 上 添加 个 滑 稳 的 蜡 子 。 


7.1 理解 Haar 级 联 


Harr 级 联 是 一 个 基于 Haar 特 征 的 级 联 分 类 器 。 级 联 分 类 器 是 什么 ” 它 是 一 个 把 弱 分 类 器 串联 成 强 分 类 器 的 过 程 。 弱 分 类 器 
和 强 分 类 器 分 别 是 什么 呢 ? 昼 分 类 器 是 性 能 受 限 的 分 类 器 ， 它 们 没 法 正确 地 区 分 所 有 事物 。 如 果 你 的 问题 很 简单 ， 它 的 输出 结果 
会 在 一 个 可 以 接受 的 汽 围 内 。 强 分 类 器 可 以 正确 地 对 数据 进行 分 类 。 下 图 展示 了 它们 是 如 何 组 合 在 一 起 的 。Haar 级 联 的 另 一 个 
重要 部 分 是 Haar 特 征 ， 这 些 特征 简单 地 总 结 了 不 同 长 方形 区 域 的 区 别 ， 如 下 图 所 示 。 
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计算 ABCD 区 域 的 Haar 特 征 ， 只 需要 计算 这 个 区 域 白色 像素 和 有 色 像 素 的 区 别 。 在 上 面 四 张 图 表 中 使 用 了 不 同 的 图 案 创建 
Haar 特 征 ， 同 时 其 他 图 案 也 被 使 用 。 这 些 图 案 使 用 了 多 重 尺度 法 以 确保 系统 的 拉 伸 是 不 变 的 。 多 重 尺度 法 指 把 图 像 缩小 再 次 
计算 同样 的 特征 。 这 样 可 以 在 给 出 对 象 大 小 有 差异 的 时 候 ， 获 得 一 个 可 靠 的 结果 。 


es 
re 《 


2 一 级 联系 统 出 现 之 后 ， 它 成 为 从 图 像 中 检测 对 象 的 一 个 极 好 的 方法 。 在 2001 年 ，Paul Viola 和 Michael Jones 发 表 了 一 个 有 创 
造 性 的 论文 ， 描 述 了 关于 对 象 检测 更 快 更 有 效 的 方法 。 如 果 你 想 学 习 更 多 知识 ， 可 以 
在 http://www.cs.ubc.ca/~lowe/425/slides/13-ViolaJones.pdf 查 看 这 篇 论文 。 


接 下 来 更 深入 地 了 解 Haar 级 联 所 做 的 一 切 。 它 换 述 了 一 个 使 用 优化 级 联 的 入 单 分 类 器 算法 。 这 个 系统 常用 来 建立 一 个 表现 
很 好 的 强 分 类 器 。 然 而 为 什么 使 用 简单 分 类 器 ， 而 不 使 用 更 精确 的 复杂 分 类 器 呢 ? 因 为 使 用 这 种 技术 可 以 避免 执行 高 精确 度 的 单 
一 分 类 器 所 产生 的 问题 。 这 些 单 步 分 类 器 趋 于 复杂 和 计算 密集 型 。 而 这 个 技术 能 起 到 如 此 好 的 效果 的 原因 人 在 于 简单 分 类 器 是 弱 学 
习 者 ,它们 不 需要 太 复杂 


考虑 下 构建 果子 检测 器 所 会 产生 的 问题 。 我 们 想 要 构建 一 个 目 动 学 习 果 子 样子 的 系统 。 基 于 这 个 知识 ， 它 能 分 辨 出 提供 图 像 


中 有 没有 一 张 朱子 。 为 了 构建 这 个 系统 ， 第 一 步 是 收集 可 以 训练 这 一 系统 的 图 像 。 机 器 学 习 领 域 有 很 多 技术 可 以 用 于 训练 这 样 的 
系统 。 谨 记 必 须 搜集 大 量 的 有 桌子 和 没 桌 子 的 图 像 以 便 让 系统 输出 结果 表现 优异 。 用 机 器 学 习 术 语 摘 述 ， 包 含 介 子 的 图 像 被 称 为 
正 样 本， 不 包含 的 被 称 为 负 样 本 。 这 一 系统 吸取 这 些 数据 并 且 学 习 两 个 种 类 的 不 同 。 


建立 一 个 实时 系统 需要 保证 分 类 器 运行 恨 好 并 且 足 够 简单 。 唯 一 需要 考虑 到 的 是 简单 分 类 器 不 够 精确 ， 如 果 试 图 更 加 精确 ， 
束 会 变 成 计算 密集 型 目 运 行 速度 变 慢 。 精 确 度 和 速度 的 取舍 在 机 器 学 习 中 相当 常见 。 所 以 串联 起 一 群 弱 分 类 器 形成 一 个 统一 的 强 
分 类 器 可 以 解决 这 个 问题 。 弱 分 类 器 不 需要 太 精 确 。 为 了 保证 整体 分 类 器 的 质量 ，Viola 和 Jones 摘 述 了 一 个 级 联 步 又 中 的 技术 近 
巧 ， 你 可 以 通过 论文 了 解 完整 的 系统 。 


为 了 了 解 一 般 流 程 步 骤 ， 我 们 创建 一 个 在 实时 视频 中 监测 人 上 脸 的 系统 。 第 一 步 是 从 所 有 图 像 中 提取 特征 。 在 这 种 情况 下 ， 算 
法 需要 了 解 这 些 特征 以 便 学 习 和 理解 人 脸 的 形状 。 他 们 的 论文 使 用 Haar 特 征 创建 特征 向 量 。 一 旦 提取 出 这 些 特征 ， 便 会 让 特征 
类 器 。 只 需要 来 检查 所 有 不 同 的 矩形 区 域 并 丢弃 那些 没有 面部 的 区 域 ， 束 可 以 快速 知道 一 个 矩形 区 域 是 否 包 仿 人 
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7.2 ”积分 图 


提取 Haar 特 征 ， 需 要 计算 图 像 中 封闭 矩形 区 域 的 像素 值 咏 相 。 为 了 不 改变 比例 ， 需 要 计算 多 重 尺度 区 域 〈 即 不 同 大 小 的 息 
形 区 域 ; 。 如 此 不 假 思 索 地 实施 将 会 是 个 计算 密集 过 程 ， 可 能 会 毅 历 每 个 矩形 的 每 个 像素 ， 而 且 同 一 个 像素 如 果 包 含 在 不 同 的 重 
二 矩 形 区 域 中 会 被 多 次 遍历 到 。 如 果 想 建立 一 个 实时 运算 的 系统 ， 不 能 忍受 这 么 长 时 间 的 计算 。 因 此 需要 积分 图 来 避免 因为 多 次 
饥 历 同一 个 像素 导致 的 大 量 隐 余 面 积 计 算 。 这 些 图 像 以 线性 时 间 急 始 化 〈 仪 仅 第 二 次 遇 历 图 像 时 ) ， 并 可 以 仅 通 过 起 形 区 域 四 个 
角 的 值 ， 提 供 像 素 的 总 和 。 通 过 下 图 可 以 更 好 地 理解 这 个 概念 : 


TITTTT 
| lil 


如 果 需 要 计算 图 像 中 任意 和 矩 形 区 域 的 大 小 ， 不 需要 遍历 区 域内 的 所 有 像素 。 想 象 下 图 中 左上 的 点 和 任何 相对 的 点 P 形 成 的 矩 
形 。 设 AP 表示 这 个 矩形 的 面积 。 如 前 图 所 示 ，AB 表 示 通 过 取 左 上 角 点 和 相对 的 B 点 形成 的 5x 2 算 形 的 面积 。 为 了 清楚 起 见 ， 看 
一 下 下 图 : 


A el | 


上 图 中 的 左上 部 分 ， 着 色 像 素 表 示 左 上 角 与 点 A 之 间 的 区 域 。 这 个 区 域 用 AA 表 示 ， 剩 下 的 图 用 AB、AC、AD 表 示 。 若 想 计 
算 上 图 ABCD 区 域 ， 将 使 用 下 列 公式 : 


矩形 ABCD 的 面积 =Ac- (AB+AD-AA) 
这 个 特定 公式 有 什么 特别 之 处 呢 ?” 正 如 我 们 所 知 ， 提 取 图 像 的 Haar 特 征 需要 计算 多 个 尺度 和 矩形 的 和 和 。 这 些 计算 是 重复 的 因 
为 反复 遍历 了 同一 个 像素 。 运 行 速度 如 此 之 慢 ， 对 构建 一 个 实时 系统 来 说 是 不 可 行 的 。 正 如 所 见 ， 不 需要 多 次 遍历 相同 的 像素 。 


如 果 要 计算 任意 一 个 矩形 区 域 ， 上 还 公 陈 等 号 右边 的 所 有 值 在 积分 图 像 中 都 是 易于 获取 的 ， 只 需要 用 正确 的 值 著 代 它们 就 可 以 提 
取 特 征 。 


7.3 ”在 实时 秽 频 中 徐 丙 上 面具 


OpenCV 提 供 一 个 很 好 的 人 脸 识别 框架 。 只 需 加 载 级 联 文件 ， 束 可 以 使 用 它 来 检测 图 像 中 的 脸 部 。 当 我 们 从 网 络 摄像 头 捕获 
视频 流 时 ， 可 以 在 脸 上 覆 苹 疹 稽 的 面具 。 如 下 图 所 示 : 


下 面 来 看 看 给 人 脸 履 兰 清 稿 面 具 的 代码 ， 完 整 的 代码 可 以 在 本 书 提 供 的 下 载 代码 包 中 获取 : 


int main(int argc, char* argv[]) 


{ 


String faceCascadeName = argv[1]; 
// 变量 声明 和 初始 化 


// 循环 直到 Esc 被 按 下 


while (true) 


人 
// 获取 当前 大 小 


cap >> frame; 


// 改变 大 小 
resize (frame, frame, Size(), scalingFactor, scalingFactor, 
INTER ARERA) ; 


// 转换 为 灰 度 
cvtColor (frame, frameGray, CV _ BGR2GRAY), 


// 均衡 直方 图 


equalizeHist (frameGray，frameGrayYy) ; 


// 检测 脸 部 
faceCascade.detectMultiScale (frameGray, faces, 1.1, 2, 
0|CV HAAR SCALE IMAGE, Size(30, 30) ); 


接 下 来 看 看 发 生 了 什么 。 首 先 从 网 络 摄 像 头 中 读 取 输入 帧 并 且 改 变 成 所 选 大 小 ， 捕 获 的 帧 是 彩色 图 像 而 人 脸 检 测 需 要 灰 度 图 
像 ， 故 将 其 转换 为 灰 度 和 均衡 直 万 图 。 均 衡 直 方 图 是 为 了 补偿 亮度、 饱和 度 等 问题 ， 若 图 像 太 亮 或 太 暗 ， 检 测 会 很 奉 。 因 此 需要 
均衡 直方 图 以 确保 图 像 处 于 一 个 合适 的 像素 值 学 围 内 : 


// 绘制 面部 周围 的 绿色 和 矩形 


for(int i = 0; i < faces.size{(); i++) 


{ 


Rect faceRect (faces [i] .x, faces[i] .y, faces (i] .width, 
faces [1I] .height).; 


// 自 定义 参数 以 使 面具 适合 脸 的 大 小 ， 你 必须 调节 它 来 起 作用 
int x = faces[i] .x - int(0.1I*xfaces[1I].wiath) ; 

int Yy = faces[i] .y - int(0.0*faces [li] .helght) ; 
int w = int(l1.1 * faces [1] .width).; 

int h = int(1.3 * faces [il] .height),; 


// 提取 感 兴趣 区 域 (ROI) 覆盖 面部 
frameROI = frame (Rect (X,y,w, 了 Ph) ) ; 


这 时 候 脸 部 位 置 补 确定 了 。 所 以 提取 感 兴趣 区 域 ， 并 企 合适 的 位 置 禾 兰 面具 : 


// 在 ROI 上 调整 面具 图 像 的 基础 尺寸 


resize (faceMask, faceMaskSmall, Size(w,h)).; 


// 转换 上 面 的 图 像 灰 度 
cvtColor (faceMaskSmall, grayMaskSmall, CV BGR2GRAY); 


// 隔离 图 像 上 像素 的 边缘 ， 仅 与 面具 相关 
threshold (grayMaskSmall, grayMaskSmallThresh, 230, 255, 
CV_ THRESH BINARY INV) ; 


分 离 与 面具 相 天 的 像素 乙 后 ， 寺 加 一 个 非 矩形 的 面具 ， 所 以 需要 履 兰 面具 的 确切 边界 ， 以 让 物体 看 起 来 更 目 然 。 下 面 继续 履 
兰 面 具 : 
// 通过 反 转 上 面 的 图 像 创 建 掩 码 (因为 不 希望 背景 影响 登 加) 
bitwise not (grayMaskSmallThresh, grayMaskSmallThreshInyv),; 


// 使 用 位 “与 ”运算 符 来 提取 面具 精确 的 边界 
bitwise and(faceMaskSmall, faceMaskSmall, maskedFace, 
grayMaskSmallThresh),， 


// 使 用 位 “与 ”运算 符 释 加 面具 
bitwise and(frameROI, frameROI, maskedFrame, 
grayMaskSmallThreshInv).; 


// 添加 面具 ， 并 将 其 放置 在 原始 帧 的 ROI 来 创建 最 终 图 像 


add (maskedFace, maskedFrame, frame (Rect (x,y,w,h))); 


} 
// 处 理 内 存 杰 放 和 GUI 的 代码 


return 1; 


代码 里 写 了 什么 


首先 ， 这 段 代 码 有 两 个 输入 参数 : 人 脸 级 联 的 xm|l 文 件 和 面具 图 像 。 可 以 使 用 默认 提供 的 haarcascade frontalface alt.xml 
和 facemask.jpg 文 件 作 为 入 参 。 然 后 需要 能 够 用 于 检测 图 像 中 脸 部 的 一 个 分 类 器 模型 ，OpencCV 提 供 的 预 编译 Xml 文件 可 以 实现 
这 个 目的 。 使 用 faceCascade.load () 较 数 加 载 xml 文 件 ， 并 检查 这 个 文件 是 否 已 被 正确 加 载 。 


接着 启动 视频 从 摄像 头 输入 帧 中 捕获 对 象 ， 并 将 其 转换 为 灰 度 以 便 运 行 检 测 。detectMultiScale 函 数 常 被 用 于 提取 输入 图 像 
中 所 有 脸 部 边界 。 随 后 根据 需求 缩小 图 像 ， 这 个 方法 的 第 二 个 参数 处 理 缩放 。 缩 放 方 法 会 在 不 同 缩放 系数 中 调整 ， 根 据 面 部 的 大 
小 调整 之 后 ， 下 一 个 大 小 约 是 现在 大 小 的 1.1 售 。 最 后 一 个 参数 是 指定 所 需要 保持 当前 的 矩形 相 邻 矩形 的 数目 的 闪 值 ， 可 以 用 它 
来 增加 脸 部 检测 器 的 稳定 性 。 


然后 开始 while 循 环 检测 每 帧 中 的 面孔 ， 直 到 用 户 按 下 ESC 键 。 一 旦 检测 到 人 脸 残 用 面具 履 兰 。 为 了 确保 面具 很 合适 ， 需 要 
稍微 修改 尺 填 。 这 个 定制 略微 主观 并 取决 于 所 使 用 的 面具 。 现 在 已 经 提取 出 兴趣 区 域 ， 只 需要 把 面具 放 在 这 个 区 域 的 项 部 。 覆 芋 
了 白色 背景 的 面具 ， 看 起 来 会 比较 怪异 ， 所 以 需要 提取 面具 的 确切 弯曲 边界 并 履 盖 它 。 我 们 希望 面具 的 像素 是 可 见 的 ， 而 其 余 区 
域 是 透明 的 。 


正如 所 见 ， 输 入 面具 具有 日 色 背 景 。 因 此 ， 通 过 添加 一 个 阅 值 以 创建 一 个 面具 。 通 过 反复 尝试 得 出 辣 值 240 效 果 很 好 。 在 图 
像 中 ， 所 有 的 强度 值 大 于 240 的 像素 将 变 成 0， 其 他 的 将 变 成 255。 至 于 兴趣 区 域 是 图 像 中 的 相关 区 域 ， 需 要 对 这 个 区 域 的 所 有 像 
素 反 以 涂 黑 。 最 后 ， 通 过 刚才 添加 面具 的 版 本 产生 最 终 输 出 图 像 。 


7.4 戴 上 太阳 镜 


在 理解 了 识别 面部 的 原理 后 ， 我 们 可 以 扩展 这 个 概念 去 检测 脸 部 不 同 的 部 位 。 下 面 的 例子 将 从 实时 视频 中 识别 眼 部 并 且 戴 上 
一 副 太 阳 镜 。Viola-Jones 框 架 可 以 用 于 检测 任何 物体 ， 明 日 这 点 很 重要 。 它 的 准确 度 和 健壮 性 将 依赖 于 物体 是 否 唯一 。 举 个 例 
子 ， 人 上 脸 是 独一无二 的 特征 ， 所 以 特别 容易 训练 出 系统 的 健壮 性 ， 另 一 方面 ， 对 于 毛巾 这 样 的 物体 太 营 沁 ， 因 为 没有 具有 区 别 性 
的 特征 ， 所 以 很 难 建立 一 个 健壮 的 毛巾 检测 器 。 


建立 一 个 眼 部 识别 后 ， 戴 上 太阳 镜 ， 效 果 如 下 图 所 示 : 


代码 的 主要 部 分 如 下 : 


int main(int argc, char* argv[] ) 
人 


string faceCascadeName = argv[1]; 
string eyeCascadeName = argv|2]; 


// 变量 的 声明 和 初始 化 


// 面部 识别 代码 


Vector<Polnt> centers; 


// 在 眼 部 周围 绘制 绿色 圆 形 
for(int i = 0; i < faces.size(); i++) 


{ 


Mat faceROI = frameGray (faces {|i1]).,; 
Vector<Rect> eyes,; 


// 在 每 一 张 脸 上 检测 眼 部 
eyeCascade.detectMultiScale (faceROI, eyes, 1.1, 
HAAR SCALE IMAGE, Size(30, 30)); 


正如 所 见 ， 眼 部 探测 器 只 在 脸 部 区 域 检测 而 不 需要 检测 整个 图 像 ， 是 因为 眼睛 总 是 会 在 脸 上 : 


// 对 于 识别 到 的 眼 部 ， 计 算 中 心 


for(int j = 0; j < eyes.size(); j++) 


{ 


Point center( faces[i] .x + eyes[j] .x + int(eves[]] . 


width*0.5), faces[i].y + eyes[j] .y + int (eyes[j] .height*0.5) 


centers.push back (center) ; 


} 
} 


// 在 两 眼 都 被 识别 的 情况 下 载 上 太阳 镜 
if (centers.size() == 2) 
{ 


Point leftPoint, rightPoint,; 


// 区 别 左 眼 右 有 眼 
if(centers[0] .x < centers [1] .x) 
{ 
leftPoint = centers [0]; 
rightPoint = centers [1] ; 


} 


else 


{ 


leftPoint = centers [1] ; 
rightPoint = CenterSs [0] ; 


检测 眼 部 ， 当 结果 为 双眼 时 ， 人 存储 它们 ， 使 用 坐标 来 判定 顽 眼 或 右 眼 。 


// 目 吓 义 参数 使 得 太阳 镜 适 合 眼睛 


You may have to play around with them to make sure it works. 


je 


nt, 入 EBPOLNE .XR = LoftpPomt. 3) 


nt hh = int(0.4 * W)}: 
int x = leftPoint .x - 0.25*w; 
nt vw = eftpont. yy = 0.5x*h 


// 提取 双眼 感 兴趣 区 域 (ROI) 


frameROI = frame (Rect (x,y,w,h)),; 


// 在 ROI 的 基础 上 调整 太阳 镜 的 矿 十 


resize (eyeMask, eyeMaskSmall, 


在 上 述 代码 中 ， 调 整 太阳 镜 大 小 以 适合 网 络 摄像 头 中 脸 部 大 小 : 


// 将 上 述 图 像 转换 为 灰 度 


cvtColor (eyeMaskSmall, grayMaskSmall, CV BGR2GRAY),; 


// 限制 上 图 以 适应 前 面 的 物体 


threshold (grayMaskSmall, grayMaskSmallThresh, 245, 


Size (w,h)).; 


-i 


CV_THRESH BINARY INV) ; 


// 通过 反 转 上 面 的 图 像 创建 模板 《因为 不 想 让 背景 影响 覆盖 物 ) 
bitwise not (grayMaskSmallThresh, grayMaskSsmallThreshIinv).; 


// 使 用 位 “与 ”运算 符 来 提取 太阳 镜 的 精确 边界 
bitwise and(leyeMaskSmall, eyeMaskSmall, maskedEye., 
grayMaskSmallThresh); 


// 使 用 位 “与 ”运算 符合 加 太阳 和 镜 
bitwise and(frameROI, frameROI, maskedFrame, 
grayMaskSmallThreshInv).,; 


// 在 ROI 的 边界 添加 覆盖 图 像 并 创建 最 终 的 图 像 
add (maskedEye, maskedFrame, frame (Rect (x,y,w,h))).; 


} 
// 释放 内 存 和 GUI 的 代码 


return 1; 


深入 理解 代码 


细心 的 读者 可 能 会 友 现 这 段 代 码 的 流程 类 似 于 前 面 讨论 的 人 脸 检测 的 代码 。 代 码 中 加 载 了 和 和 人 脸 检测 级 联 分 类 器 类 似 的 眼 部 
侈 测 级 联 分 类 器 。 为 什么 需要 加 载 人 脸 识 别 ， 什 么 时 候 检测 眼 部 ， 这 有 助 于 缩小 搜索 眼 部 的 范围 。 然 而 眼睛 肯定 企 人 脸 上 ， 所 以 
人 脸 识别 可 以 有 助 于 限定 搜寻 有 眼 部 检测 区 域 。 首 先 检测 面部 ， 然 后 在 这 个 区 域 运 行 眼睛 检测 代码 。 因 此 只 需要 在 较 小 的 区 域 中 操 
作 ， 这 将 更 快 、 更 有 效 。 


对 每 一 幢 以 检测 脸 部 开始 ， 然 后 在 脸 部 区 域 检测 眼 部 。 在 这 一 步 之 后 ， 戴 上 太阳 镜 ， 调整 太阳 镜 大 小 以 适应 脸 部 大 小 。 为 了 
取得 合适 的 缩放 大 小 ， 需 要 在 两 个 眼睛 都 被 检测 到 的 时 候 ， 戴 上 太阳 镜 。 这 就 是 为 什么 先 运行 眼 部 检测 ， 收 集 所 有 中 心 点 ， 再 戴 
上 太阳 简 的 原因 。 一 旦 做 到 这 点 ， 融 可 以 戴 上 太阳 镜 了 。 用 于 遮 兰 的 原理 非 党 类 似 于 履 羡 面具 ， 需 要 基于 定制 的 太阳 镜 的 大 小 和 
位 置 。 你 可 以 放置 不 同类 别 的 太阳 镜 ， 然 后 看 看 效果 。 


7.5 ”跟踪 里子 、 哮 和 耳 洒 


现在 你 知道 如 何 使 用 框架 来 跟踪 不 同 的 目标 了 ， 你 可 以 党 试 跟 踪 鼻 子 、 嘴 和 耳 朱 。 让 我 们 用 鼻子 检测 器 来 履 盖 一 个 有 趣 的 鼻 
子 : 


你 可 以 在 代码 文件 中 获得 完整 的 实现 。 用 来 跟 路 脸 部 的 级 联 器 文件 为 : haarcascade_mcs_nose.xml、 
haarcascade mcs mouth.xml、haarcascade mcs leftear.xml 和 haarcascade mcs rightear.Xxml。 所 以 ， 你 可 以 尝试 使 用 它 


们 ， 晕 试 在 目 己 的 脸 上 苹 上 胡子 或 吸血 鬼 的 耳 米 


7.6 辟 结 


本 章 讨 论 了 Haar 级 联 和 积分 图 。 学 会 了 建立 人 脸 检测 管道 ， 并 且 人 在 实时 视频 济 里 检测 跟踪 人 脸 。 讨 论 了 如 何 使 用 人 脸 检 测 
框架 来 检测 各 种 人 上 脸 部 位 ， 如 眼睛 、 、 县 子 和 跨 。 我 们 还 学 会 了 如 何 使 用 人 脸 检 测 的 结果 ， 在 输入 图 像 上 的 顶部 履 戎 遮 淖 。 


在 下 一 章 中， 我们 将 学 习 视 频 监控 、 青 景 去 除 和 形态 学 图 像 操 作 。 


第 8 章 ” 视 频 监 控 、 育 景 建 模 和 形态 学 操作 


在 本 章 中 ， 我 们 将 学 习 如 何 从 静态 摄像 机 提 报 的 视频 中 检测 运动 的 物体 。 这 广泛 使 用 在 视频 监控 系统 中 。 我 们 将 讨论 常用 于 
构建 这 个 系统 的 不 同 的 特征 。 还 将 学 习 背 景 建 模 ， 并 且 理 解 如 何在 实时 视频 中 用 它 来 建立 背景 模型 。 一 旦 做 到 这 一 点 ， 我 们 将 结 
合 所 有 的 模块 来 探测 视频 中 感 兴 趣 的 对 象 。 


学 完 本 章 ， 你 应 该 能 够 回答 以 下 问题 : 


:如何 建立 一 个 背景 模型 ? 
` 如 何 识 别 静 态 视 频 中 的 新 目标 ? 
“什么 是 形态 学 图 像 操作 ， 景 建 模 是 何 关系 ? 


“ 如 何 使 用 形态 学 操作 实现 不 同 的 效果 ? 


8.1 理解 衣 景 差分 


景 差 分 在 视频 监控 中 非 音 有 用 。 背 景 关 分 扩 术 能 很 好 地 在 一 个 静态 场景 中 探测 移动 对 象 。 如 今 ， 这 对 视频 监控 有 何 用 ?” 视 
页 监控 过 程 涉及 恒定 数据 流 的 处 理 。 数 据 流 随 时 都 有 ， 我 们 需要 分 析 它 ， 以 确定 任何 可 疑 的 活动 。 考 虑 一 个 酒店 大 堂 的 例子 。 所 
有 的 墙壁 和 家 具 都 在 一 个 固定 的 位 置 。 如 果 现在 建立 一 个 背景 模型 ， 束 可 以 用 它 在 大 厅 里 来 识别 可 疑 的 活动 。 还 可 以 利用 背景 场 
景 一 直 保 持 不 变 的 事实 (在 本 例 中 ， 这 恰好 是 真实 的 ) 。 这 有 助 于 我 们 避免 任何 不 必要 的 计算 开销 。 


顾名思义 ， 这 种 算法 通过 探测 所 述 背 景 ， 将 图 像 的 每 个 像素 分 配 成 两 类 : 背景 (假设 它 是 静态 的 和 稳定 的 ) 或 前 景 。 然 后 从 
当前 帧 减 去 背景 获得 前 景 。 由 静态 假设 ， 前 景物 体 目 然 会 对 应 于 在 育 景 前 移动 的 物体 或 人 。 


为 了 探测 移动 物体 ， 首 先 需 要 建立 背景 模型 。 这 和 和 直接 的 帧 舌 值 是 不 一 样 的 ， 因 为 实际 上 我 们 制造 背景 建 模 ， 并 使 用 这 个 模 
型 来 探测 移动 对 象 。 当 说 到 正在 背景 建 模 时 ， 基 本 上 是 在 构建 可 用 于 表示 背景 的 数学 公式 。 所 以 ， 这 是 一 个 比 简单 帧 磊 值 技术 更 
好 的 方法 。 这 种 拉 术 尝试 探测 场景 中 的 静态 部 分 ， 然 后 更 新 背景 模型 。 之 后 ， 这 个 背景 模型 被 用 来 探测 背景 像素 。 因 此 ， 它 是 一 
种 可 以 根据 现场 调整 的 目 适 应 技术 。 


8.2 ”信里 背景 大 分 ) 


接 下 来 从 头 开始 讨论 背景 郑 分 法 。 背 景 差分 过 程 是 什么 样子 的 ”思考 下 图 : 


前 图 表示 背景 场景 。 接 下 来 在 这 个 场景 引入 一 个 新 的 对 象 : 


如 图 所 示 ， 在 场景 中 有 一 个 新 的 对 儿 。 所 以 ， 如 果 计 算 这 个 图 像 和 育 景 模型 乙 间 的 差异 ， 你 应 该 能 够 识别 电视 遥控 器 的 位 


整个 过 程 看 起 来 如 下 图 所 示 : 


输入 图 像 


计算 两 个 
图 像 的 绝 
对 差 值 


这 融 是 称 之 为 简单 方法 的 一 个 理由 。 它 在 理想 条 件 下 能 够 工作 ， 但 是 正如 我 们 所 知 ， 在 现实 世界 中 没有 什么 是 理想 的 。 它 对 
计算 给 定 对 象 的 形状 有 相当 不 错 的 表现 ， 但 必须 在 某 些 约束 条 件 下 才 会 如 此 。 这 种 方法 主要 的 一 个 要 求 是 ， 这 个 对 象 的 颜色 和 亮 
大 应 该 与 背景 形成 强烈 反差 。 影 响 这 种 算法 的 因素 有 : 图 像 噪声 、 照 明 条 件 、 相 机 的 目 动 对 焦 ， 等 等 。 


一 旦 一 个 新 的 对 象 进 入 场景 ， 并 留 在 那里 ， 那 么 检测 在 它 之 前 的 新 对 象 将 会 变 得 很 困难 。 这 是 因为 并 没有 更 新 育 景 模型 ， 而 


育 景 的 一 部 分 。 


对 象 又 被 认为 是 


新 


景 中 


对 象 进入 场 


本 
内- 人 | 


现在 ,一 个 


这 种 情况 是 好 的 。 但 是 ， 另 一 个 对 象 又 进入 场景 : 


可 以 确定 这 是 个 新 对 象 ， 


EA 


Pa 
, a Fa 
EE sh - a 
Se . 
E 
We 
全 证 让 
Po 
1 


和 


< 和 
和 
"A 


I 

要 

3 9 
和 


育 景 和 应 用 国 值得 到 的 图 像 : 


月 只 


很 难 确 定 这 两 个 不 同 对 象 的 位 置 ， 因 为 它们 的 位 置 是 重病 的 。 下 面 是 通过 减 去 


的 某 些 部 分 开始 移动 ， 那 么 这 些 部 分 将 会 被 探测 为 新 对 象 。 因 此 ， 即 使 轻微 的 运动 ， 
七 不 能 处 理 任何 摄像 机 运动 。 不 用 说 ， 这 是 一 个 使 


这 种 方法 假设 育 景 是 静态 的 。 如 果 育 景 


比如 说 庄 扬 的 旗帜 ， 都 会 使 探测 算法 出 问题 。 
用 受 限 的 万 法 ! 我 们 需要 一 些 可 以 处 理 所 有 这 


这 种 方法 对 光照 变化 也 很 敏感 ， 
些 现实 世界 里 事物 的 万 法 。 


8.3 ” 帧 夫人 法 


我 们 知道 不 能 一 直 保 持 用 于 探测 对 象 的 育 景 图 像 静 止 。 所 以 ， 解 决 这 个 问题 的 一 个 方法 融 是 利用 帧 郑 值 。 这 是 可 以 用 来 找到 
视频 中 什么 部 分 在 移动 的 最 简单 的 方法 乙 一 。 当 我 们 想象 一 个 实时 视频 流 ， 连 续 帧 之 间 的 差异 提供 了 大 量 的 信息 。 这 个 概念 相当 
简单 。 只 需要 取 连 续 帧 之 间 的 差异 ， 并 将 它们 显示 出 来 。 


如 果 快 速 移动 笔记 本 电脑 ， 融 会 看 到 类 似 下 图 的 世 西 : 


移动 其 他 对 象 ， 而 不 移动 笔记 本 电脑 ， 看 看 会 友 生 什么 。 如 果 我 迅速 地 摇 摇 头 ， 它 融会 像 这样 : 


正如 在 前 图 中 看 到 的 ， 只 有 视频 中 移动 的 部 件 得 到 了 突出 显示 。 这 给 我 们 提供 了 一 个 很 好 的 起 点 ， 即 能 看 到 视频 中 移动 的 区 
域 。 接 下 来 看 看 这 个 用 来 计算 帧 郑 值 的 函数 : 


Mat frameDiff (Mat prevFrame, Mat curFrame, Mat nextFrame) 


人 
Mat diffFramesl, diffFrames2, output; 
// 计算 当前 帧 和 下 一 帧 的 绝对 差 值 
absdiff (nextFrame, curFrame, diffFramesl).; 
// 计算 当前 帧 和 前 一 帧 的 绝对 差 值 
absdiff (curFrame, prevFrame, diffFrames2).; 
// 对 以 上 两 个 不 同 的 图 像 进 行 按 位 “与 ”操作 
bitwise and(diffFrames1, diffFrames2, output),; 
return OuUuCDuUL:; 
} 


帧 兰 值 相当 简单 。 计 算 当 前 帧 和 前 一 帧 、 当 前 帧 和 下 一 帧 之 间 的 绝对 差 。 然 后 ， 取 这 尝 帧 差 值 并 使 用 按 位 “与 ”和 运算。 已 
突出 图 像 中 的 运动 部 分 。 如 果 只 是 计算 当前 帧 和 前 一 帧 乙 间 的 差异 ， 往 往 会 产生 噪声 。 因 此 ， 当 看 到 移动 的 对 象 ， 还 需要 对 连续 
帧 兰 值 使 用 按 位 “与 ”运算 来 获得 一 定 的 称 定性 。 


人 人 
十 


接 下 来 ， 看 一 下 从 网 络 摄像 头 提取 和 返回 一 个 帧 的 功能 : 


Mat getFrame (VideoCapture cap, float scalingFactor) 


人 
// 浮 动 比例 因子 设 为 0.5 


Mat frame, output, 


// 捕获 当前 帆 


Cap >> frame; 


// 调整 大 小 
resize (frame, frame, Size(), scalingFactor, scalingFactor, INTER 
AREA) ; 


// 转换 为 灰 度 


cCVtCoOLor (上 zame， output, CV BGR2GRAY); 


return OUCDULC 


正如 所 见 ， 它 是 非常 简单 的 。 我 们 只 需要 调整 帧 大 小 ， 并 将 它 转 换 为 灰 度 图 像 。 现 在 帮助 遂 数 已 经 准备 好 了 ， 接 下 来 看 一 下 
main 了 为 数 ， 以 及 它们 是 如 何 一 起 工作 的 : 


int main(int argc, char* argv|]) 


{ 


Mat frame, prevFrame, curFrame, nextFrame; 
char ch ; 


// 创建 捕获 对 象 t 
// 0-> 输入 变量 表示 数据 源 来 自 摄像 头 
VideoCapture cap (0); 


// 如 果 摄 像 头 无 法 打开 ,停止 执行 
if( lcap.isOpened() ) 
return -1; 


/ /创建 GUI 窗口 


namedWindow ("Frame').; 


// 调整 摄像 头 输入 帧 大 小 的 缩放 因子 
float scalingFactor = 0.75; 


prevFrame = getFrame (cap, scalingFactor),; 
curFrame = getFrame (cap, scalingFactor); 
nextFrame = getFrame (cap, scalingFactor).; 


// 循环 直到 用 户 按 下 Esc 键 


while (true) 


{ 
// 显示 对 象 移动 
imshow ("Object Movement", frameDiff (prevFrame, curFrame, 
nextFrame)); 


// 更 新 变量 并 抓 取 下 一 帧 

prevFrame = curFrame,; 

CurFrame = nextFrame,; 

nextFrame = getFrame (cap, scalingFactor); 


// 获取 键盘 输入 ， 并 检测 用 户 是 否 按 下 “Esc” 键 
// 27->“Esc” 按 钮 的 ASCII 码 
ch = WaltKey( 30 ) ; 
if (ch == 27) { 
break; 


} 
} 


// 释放 摄像 头 抓 取 对 象 


cap .release() ; 


// 关闭 所 有 窗口 


destroyAllWindows (); 
return 工 ; 

} 

它 是 如 何 工作 的 


正如 所 见 ， 帧 差 值 法 解决 了 几 个 之 前 面临 的 重要 问题 。 它 能 够 迅速 适应 光绪 变化 或 摄像 机 移动 。 如 果 一 个 对 稼 出 现在 帧 中 ， 
并 在 那里 停留 ， 在 将 来 的 帧 中 也 不 会 被 检测 到 。 这 种 万 法 主要 关注 点 是 探测 均匀 着 色 的 对 象 。 它 只 能 检测 一 个 均匀 着 色 的 对 象 的 
边缘 。 因 为 这 个 对 象 的 很 大 一 部 分 将 导致 非常 低 的 像素 帮 异 ， 如 下 图 所 示 : 


比如 ， 这 个 对 象 微微 移动 。 如 果 与 前 一 帧 比较 ， 它 看 起 来 残 像 这 样 : 


因此 ， 我 们 有 非常 少 的 像素 标记 在 对 象 上 。 另 一 个 令 人 天 注 的 问题 是 ， 很 难 检测 到 一 个 对 象 是 在 朝 着 相机 移动 ， 还 是 在 远离 
相机 移动 。 


在 谈论 混合 高 斯 (Mixture of Gaussians，MOG) 方法 之 前 ， 先 看 看 混合 模型 是 什么 。 一 种 混合 模型 只 是 一 个 统计 模型 ， 
可 以 用 来 表示 数据 中 的 子 群 的 存在 。 我 们 并 不 关心 每 个 数据 点 的 类 别 。 需 要 做 的 束 是 确定 数据 是 否 在 多 个 组 中 。 现 在 ， 如 果 用 高 
斯 消 数 表示 每 个 子 群 ， 它 束 称 为 混合 高 斯 。 接 下 来 考虑 下 图 : 


现在 ， 当 在 这 个 场景 中 收集 更 多 的 帧 时 ， 图 像 中 的 每 一 部 分 都 将 逐渐 成 为 背景 模型 的 一 部 分 。 这 是 之 前 讨论 过 的 。 如 果 一 个 
场景 是 静态 的 ， 这 个 模型 可 以 调整 自己 ,以 确保 背景 模型 更 新 。 被 指定 代表 前 景 对 象 的 前 景 掩 模 ， 看 起 来 像 一 个 黑色 的 图 像 ， 因 


为 每 个 像素 都 是 背景 模型 的 一 部 分 。 


OpenCV 有 多 种 实现 高 斯 混合 方法 的 算法 。 其 中 有 一 种 叫 作 MOG， 其 他 被 称 为 MOG2。 想 了 解 更 多 详细 资料 ， 可 参 
阅 http://docs.opencv.org/master/db/d5c/tutorial_py_bg_subtraction.html#gsc.tab=0， 还 可 以 查看 用 来 实现 这 些 算法 的 原创 性 研究 论 
又 


下 面 将 一 个 新 对 象 引 入 到 这 一 场景 中 ， 并 看 看 使 用 MOG 方 法 后 前 景 掩 模 的 样子 : 


FG Mask MOG 


接 下 来 等 待 一 段 时 间 ， 并 向 场景 引入 一 个 新 对 销 。 看 看 使 用 MOG2 方 法 后 前 景 掩 模 的 样子 : 
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int main(int argc, char* argv[]) 


{ 
// 变量 声明 和 初始 化 


// 循环 直到 用 户 按 下 “Esc ” 键 


while (true) 


{ 
// 抓 取 当 前 巾 


cap >> frame; 


// 重 设 帧 大 小 
resize (frame, frame, Size(), scalingFactor, scalingFactor, 
INTER AREA); 


// 更 新 基于 当前 帧 的 MOG 背景 模型 
PMOG- >operator() (frame, fgMaskMOG) ; 


// 更 新 基于 当前 帧 的 MOG2 背景 模型 
PMOG2->operator() (frame, fgMaSskMOG2 ) ; 


// 展示 当前 帧 


imshow ("Frame", frame),; 


// 展示 MOG 前 景 层 
jmshow ("FG Mask MOG", fgMaskMOG); 


// 展示 MOG2 前 景 层 
imshow ("FG Mask MOG 2", fgMaskMOG2).， 


// 获取 键盘 输入 ， 并 检测 用 户 是 否 按 下 “Esc” 键 
// 27->“Esc” 按 钮 的 ASCII 码 
GTL 30 }3 
if (ch == 27) { 

Dreak; 
} 


| 
// 松 放 摄像 头 获取 对 象 


cap.release () ; 


// 关闭 所 有 窗口 
destroyAllWindows () ; 


return 1; 


代码 中 发 生 了 什么 


下 面 快速 浏览 一 下 代码 ， 看 看 友 生 了 什么 。 我 们 使 用 混合 高 斯 模型 建立 背景 磊 分 对 象 。 当 从 网 络 摄像 头 获 取 新 帧 时 ， 这 个 对 
象 表示 的 模型 将 被 更 新 。 正 如 在 代码 中 看 到 的 那样 ， 初 始 化 了 两 个 背景 差分 模型 : BackgroundSubtractorMOG 和 
BackgroundSubtractorMOG2。 它 们 代表 了 用 于 背景 差分 的 两 个 不 同 的 算法 。 第 一 种 引用 P.KadewTraKuPong 和 R.Bowden 
titled 所 写 的 “An improved adaptive background mixture model for real-time tracking with shadow detection” 一 文 。 
你 可 以 在 http://personal.ee.surrey.ac.uk/Personal/R.Bowden/publications/avbs01/avbs01.pdf 阅 读 访 文章。 第 二 种 引用 了 
Z.Zivkovic 的 论文 “Improved adaptive Gausian Mixture Model for background subtra-ction”。 你 可 以 


在 http://www.zoranz.net/Publications/zivkovic2004ICPR.pdf 阅 读 该 文章 。 下 面 开 始 一 个 无 限 while 循 环 ， 并 不 断 地 读 取 来 自 
摄像 头 的 输入 帧 。 每 一 帧 都 会 更 新 背景 模型 ， 如 以 下 代码 所 示 : 


PMOG- >operator() (frame, fgMaskMOG); 
PMOG2->operator() (frame, fgMaskMOG2); 


背景 模型 通过 这 些 步 又 更 新 。 现 在 ， 如 果 新 对 象 进入 场景 并 停留 在 那里 ， 它 将 成 为 背景 模型 的 一 部 分 。 这 有 助 于 克服 和信 单 背 
景 磊 分 模型 的 最 大 缺陷 。 


8.5 ”形态 学 图 像 操 作 


正如 前 面 所 讨论 的 ， 育 景 差分 万 法 受 诸多 因素 影响 。 它 们 的 精度 取决 于 如 何 捕捉 及 处 理 数据 。 影 响 这 些 算法 的 最 大 因素 乙 一 
是 噪声 级 。 我 们 所 谈论 的 噪声 包括 : 图 像 中 的 上 颗粒、 孤立 的 黑色 /日 色 像素 ， 等 等 。 这 些 问题 往往 会 影响 算法 的 质量 。 这 是 形态 
学 图 像 操 作 进 入 图 像 的 契机 。 形 仿 学 图 像 操 作 在 很 多 实时 系统 中 被 广泛 使 用 ， 以 确保 输出 图 像 的 质量 。 


形态 学 图 像 操 作用 于 处 理 图 像 的 形状 特征 。 例 如 ， 可 以 使 图 像 形状 变 粗 或 变 细 。 形 人 态 学 运算 依赖 于 图 像 中 的 像素 值 是 如 何 排 
列 的。 这 束 是 它们 非常 适合 在 二 进 制图 像 中 操纵 形状 的 原因 。 形 人 态 学 图 像 操 作 同 样 可 以 应 用 于 灰 度 图 像 ， 但 其 像素 值 将 变 得 不 那 
么 重要 。 


形态 学 图 像 操作 的 基本 原理 


形态 学 运算 使 用 结构 元 素来 修改 图 像 。 什 么 是 结构 元 素 ? 结构 元 素 忌 的 来 说 是 一 个 小 的 形状 ， 它 可 以 用 来 检查 图 像 中 的 一 个 
小 区 域 。 它 被 放置 在 图 像 中 的 所 有 像素 位 置 ， 以 便 检查 像素 邻 域 。 基 本 上 都 是 取 一 个 小 窗口 ， 并 将 它 覆 苹 在 一 个 像素 上 。 然 后 根 
据 不 同 的 回应 ， 在 这 个 像素 位 置 采取 不 同 的 措施 。 


接 下 来 看 看 下 面 的 输入 图 像 


可 以 应 用 一 系列 形态 学 运算 来 观察 这 个 图 像 形状 是 如 何 变 化 的 。 


8.6 图 像 细 化 


可 以 使 用 腐蚀 (erosion) 操作 实现 这 种 效果 。 这 是 一 种 通过 剥离 图 像 中 所 有 形状 的 边 春 层 ， 使 形状 变 细 的 操作 : 


Output image after erosion 


Morphotlogy 


接 下 来 看 看 执行 形态 腐蚀 的 函数 : 


Mat performErosion(Mat IDnPutImadgde，1Int erosionElement, int 
erosionSize) 


{ 


Mat outputlimage; 
int erosionType; 


i1f (erosionElement == 0) 
eroslionType = MORPH RECT ; 


else if (erosionEl]ement == 1) 
erosionType = MORPH CROSS ; 


else if (erosionEl]ement == 2) 
erosionType = MORPH ELLIPSE.; 


// 创建 腐蚀 的 结构 元 素 


Mat element = getStructuringElement (eroSs1lLonTyPpe， 
Size(2*erosionSize + 1, 2*erosionSize + 1), Point (erosionSize, 
erosionSize)).;， 


// 使 用 构造 要 素 腐 蚀 图 像 


erode (inputImage, outputImage, element); 


// 返回 输出 图 像 


return output lmage,; 


你 可 以 在 .cpp 文 件 中 看 到 完整 的 代码 ， 并 了 解 如 何 使 用 这 个 功能 。 忆 之 ,我们 使 用 OpenCV 内 置 沙 数 建 立 结构 元 素 。 这 个 对 
象 被 用 来 作为 “ 探 针 ”， 依 照 一 定 的 条 件 去 修改 每 个 像素 。 这 些 条 件 是 指 在 图 像 中 特定 像素 周围 友 生 的 事情 。 例 如 ， 它 周围 是 日 
色 像 素 ? 还 是 黑色 像素 ? 一 旦 有 了 答案 ， 束 可 以 及 取 适当 的 方法 了 。 


8.7 图像 加 租 


可 以 使 用 膨胀 〈dilation) 操作 来 实现 加 粗 。 这 是 一 个 通过 对 图 像 中 所 有 图 形 添 加 边界 层 来 实现 加 粗 的 操作 : 


Output image after dilation 


Morphology 


下 面 是 实现 代码 : 


Mat performDilation(Mat inputImage, int dilationElement, int 
dilationSize) 


{ 


Mat outputImage,; 
int dilationType; 


if (dilationElement == 0) 
dilationType = MORPH RECT:; 


else if (dilationElement == 1) 
dilationType = MORPH CROSS ; 


else if (dilationElement == 2) 
dilationType = MORPH ELLIPSE.; 


// 创建 膨胀 的 结构 元 素 


Mat element = getStructuringElement (dilationType, 


Size (2*dilationSize + 1, 2*dilationSize + 1), Point (dilationSsSize, 


dilationSize)).;， 


// 使 用 构造 要 素 膨 胀 图 像 


dilate(inputImage, outputImage, element).,， 


// 返回 输出 图 像 


return outputlimage; 


8.8 ”其 他 形态 学 运算 


这 里 还 有 一 些 很 有 趣 的 形态 学 运算 。 首 先 来 看 看 输出 图 像 。 我 们 可 以 在 本 证 结束 时 看 到 代码 。 


8.8.1 形态 学 开 运 算 


文 是 一 个 打开 形状 的 操作 。 这 种 运算 常用 于 去 除 图 像 中 的 噪声 。 可 以 通过 对 图 像 先 腐蚀 、 后 膨胀 来 实现 形态 仿 


学 开 运 算 通 过 将 小 对 象 放 置 在 背景 中 来 从 图 像 前 景 中 删除 它们 : 


Output image after opening 


下 面 是 执行 形态 学 开 运 算 的 消 数 : 


Mat performOpening (Mat inputImage, int morphologyElement, int 


morphologySize) 


{ 
Mat outputlmage, templmage,; 
int morphologyType ; 


if (morphologyElement == 0) 
morphologyType = MORPH RECT; 


else if (morphologyElement == 1) 
morphologyType = MORPH CROSS ; 


else if (morphologyElement == 2) 
morphologyType = MORPH ELLIPSE,; 


// 创建 腐蚀 的 结构 元 素 

Mat element = getStructuringElement (morphologyTYy 
pe, Size(2*morphologySize + 1, 2*morphologySize + 1), 
Point (morphologySize, morphologySize)).， 


// 应 用 执行 形态 学 开 运 算 到 构造 元 素 的 图 像 
erode (inputImage, tempImage, element).,; 
dilate(tempImage, outputImage, element).,， 


// 返回 输出 图 像 


return output lmage; 


如 上 所 示 ， 我 们 运用 腐蚀 和 膨胀 运算 来 实现 图 像 形态 学 开 运 算 。 


8.8.2 ”形态 池 卉 去 算 


M3 


实现 形态 学 闭 运算 。 这 一 运算 通过 将 背景 的 小 物体 移 到 前 景 中 ， 来 去 除 前 景 中 的 小 孔 。 


这 是 一 个 通过 填充 间 际 来 实现 形状 闭合 (closes) 的 运算 。 这 种 运算 也 可 用 于 噪声 去 除 。 我 们 通 
A 


过 对 图 像 先 膨胀 、 后 腐蚀 来 


Output image after closing 


Morphotlogy 


接 下 来 迅速 浏 响 一 下 执行 形态 学 闭 运 算 的 销 数 : 


Mat performClosing (Mat inputImage, int morphologyElement, int 
morphologySize) 


{ 
Mat outputlmage, templmage.,; 
int morphologyType.; 


If (morphologyElement == 0) 
morphologyType = MORPH RECT; 


else if (morphologyElement == 1) 
morphologyType = MORPH CROSS ; 


else if (morphologyElement == 2) 
morphologyType = MORPH ELLIPSE,; 


// 创建 腐蚀 的 结构 元 素 

Mat element = getStructuringElement (morphologyTy 
pe, Size(2*morphologySize + 1, 2*morphologySize + 1), 
Point (morphologySize, morphologySize)).,， 


// 应 用 执行 形态 学 闭 运算 到 构造 元 素 的 图 像 
dilate(inputImage, tempImage, element).,， 
erode (tempImage, outputIimage, element).,， 


// 返回 输出 图 像 


return output lmage; 


8.8.3 ”绘制 边 界 


可 以 使 用 形态 学 梯 大 实现 这 一 点 。 这 是 一 个 利用 膨胀 和 腐蚀 图 像 乙 间 的 差异 来 绘制 图 像 边 界 的 操作 : 


Output image after morphological gradient 


接 下 来 看 看 执行 形态 学 梯 厦 的 函数 : 


Mat performMorphologicalGradient (Mat inputImage, int 
morphologyElement, int morphologySize) 


{ 


Mat outputlmage, templImagel, templmage2,; 
int morphologyType.; 


1f (morphologyElement == 0) 
morphologyType = MORPH RECT; 


else if (morphologyElement == 1) 
morphologyType = MORPH CROSS ; 


else if (morphologyElement == 2) 
morphologyType = MORPH ELLIPSE; 


// 创建 腐蚀 的 结构 元 素 

Mat element = getStructuringElement (morphologyTy 
pe, SizZe(2*morphologySize + 1, 2*morphologySize + 1), 
Point (morphologySize, morphologySize)); 


// 应 用 形态 学 梯度 到 构造 元 素 的 图 像 
dilate(inputImage, tempImagel, element).,， 
erode (inputImage, tempImage2, element).,， 


// 返回 输出 图 像 


return templmagel = 上 emDLmaceza ; 


8.8.4 ”日 项 由 变换 


日 项 帽 变 换 (简称 为 项 幅 变 换 ) 能 从 图 像 中 提取 更 精细 的 细节 。 我 们 可 以 通过 计算 输入 图 像 和 形态 学 开 运算 结果 之 间 的 差 来 


实施 日 顶 帽 变换 。 它 在 图 像 中 提供 了 比 结构 元 素 更 小 ， 比 周围 明之 的 对 象 。 所 以 ， 根 据 结构 元 素 的 尺寸 ， 融 可 以 从 给 定 的 图 像 中 
提取 出 各 种 对 象 : 


Output image aftertop hat 
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仔细 观察 输出 图 像 ， 束 可 以 看 到 那些 黑色 粉 形 。 这 意味 着 这 一 结构 元 素 在 那里 是 适合 的 ， 因 此 这 些 区 域 被 涂 黑 。 下 面 是 实现 
这 个 功能 的 函数 : 


Mat performTopHat (Mat inputImage, int morphologyElement, int 
morphologySize) 


{ 


Mat outputlmage; 
int morphologyType.; 


If (morphologyElement == 0) 
morphologyType = MORPH RECT; 


else 1if (morphologyElement == 1) 
morphologyType = MORPH CROSS ; 


else if (morphologyElement == 2) 
morphologyType = MORPH ELLIPSE; 


// 创建 腐蚀 的 结构 元 素 

Mat element = getStructuringElement (morphologyTy 
pe, Size(2*morphologySize + 1, 2*morphologySize + 1), 
Point (morphologySize, morphologyS1ize)).; 


// 应 用 白 顶 帽 变换 到 构造 元 素 的 图 像 
outputImage = inputImage - performOpening (inputImage, 
morphologyElement, morphologySize).,; 


// 返回 输出 图 像 
return outputlmage,; 
8.8.5 ” 黑 顶 帐 变换 


黑 顶 帽 变换 (简称 为 黑 幅 变换 ) 也 能 从 图 像 中 提取 更 精细 的 细节 。 我 们 可 以 通过 计算 输入 图 像 和 它 的 形态 学 闭 结果 之 间 的 闫 
来 实施 黑 顶 帽 变换 。 它 在 图 像 中 提供 了 比 结构 元 素 更 小 ， 比 周围 更 蜡 的 对 象 。 


Output image after black hat 


接 下 来 看 看 执行 黑 顶 帽 变换 的 阔 数 : 


Mat performBlackHat (Mat inputImage, 
morphologyS1ize) 


{ 


int morphologyElement, int 


Mat output Image ; 
int morphologyType; 


1f (morphologyElement == 0) 


morphologyType = MORPH RECT ; 


else if (morphologyElement == 1) 
morphologyType = MORPH CROSS,; 


else if (morphologyElement == 2) 
morphologyType = MORPH ELLIPSE; 


// 创建 腐蚀 的 结构 元 素 

Mat element = getStructuringElement (morphologyTYy 
pe, Size(2*morphologySize + 1, 2*morphologySize + 1), 
Point (morphologySize, morphologySize)).,， 


// 应 用 黑 顶 帽 变 换 到 构造 元 素 的 图 像 

outputImage = performClosing (inputImage, morphologyElement, 
morphologySize) - inputImage.,; 
// 返回 输出 图 像 


return OUDPULJLImage ; 


8.9 总 结 


AN 一 器 


在 本 章 中 ， 我 们 了 解 了 背景 建 模 和 形 仿 学 图 像 操作 的 算法 。 讨 论 了 简单 背景 大 
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分 及 它 的 局 限 性 。 学 会 了 如 何 利用 帧 笑 值 法 获 
得 运动 的 信息 ， 及 它 在 跟 踊 不 同类 型 对 象 时 的 限制 性 。 还 讨论 了 高 斯 混合 ， 及 它 的 定义 和 实施 细节 。 然 后 讨论 了 形态 学 图 像 操 
作 ， 学 会 了 如 何 将 它 用 于 各 种 用 途 ， 并 通过 不 同 的 运算 来 展示 想 要 的 效果 。 


下 一 章 我 们 将 讨论 如 何 跟踪 对 象 ， 以 及 可 以 用 来 跟踪 对 象 的 各 种 技术 。 


第 9 和 草 ” 学 习 对 象 跟踪 


在 上 一 章 中 ， 我 们 了 解 了 视频 监控 、 背 景 建 模 和 形态 学 图 像 处 理 ， 还 讨论 了 如 何 使 用 不 同 的 形态 学 运算 处 理 输入 图 像 得 到 很 
酷 的 视 党 效果 。 在 本 草 中 ， 我 们 将 学 习 如 何 跟 路 直播 视频 中 的 对 象 ， 并 学 习 如 何 利 用 对 象 的 不 同 特点 来 跟 趴 它 。 我 们 还 将 了 解 用 
于 对 象 跟 路 的 不 同方 法 和 技术 。 对 象 跟 路 广泛 用 于 机 器 人 、 无 人 驾驶 汽车 、 和 车 辆 跟 味 、 体 育 球员 跟踪 、 视 频 压缩 ， 等 等 。 


学 完 本 章 你 可 以 回答 出 以 下 几 个 问题 : 
:如何 跟踪 着 色 对 象 
- 如 何 构 建交 互 式 对 象 跟踪 
“ 什么 是 角 点 检测 器 
:如何 检测 好 的 特点 跟踪 


. 如 何 构建 基于 光 流 的 特征 点 跟踪 


9.1 跟 味 特定 颜色 的 对 象 


构建 一 个 好 的 对 象 跟踪 器 ， 需 要 了 解 哪些 特征 可 以 使 跟 踊 更 加 健壮 和 准确 。 所 以 ， 下 面 朝 着 这 个 方向 迈 出 一 小 步 ， 看 看 如 何 
用 色彩 构建 恨 好 的 视 竞 跟踪 系统 。 要 时 刻 牢 记 的 一 件 事 是 颜色 信息 对 照明 条 件 很 敏感 。 在 实际 应 用 中 ， 需 要 有 针对 性 地 做 一 些 预 
处 理 。 但 现在 ， 假 设 别人 和 我 们 一 样 得 到 了 干净 的 彩色 图 像 。 


有 许多 不 同 的 色彩 空间 ， 不 同 应 用 中 的 好 坏 将 取决 于 人 们 的 使 用 。 尽 管 RGB 是 在 计算 机 屏幕 上 的 目 然 表 示 ， 但 对 人 类 而 言 不 
一 定理 想 。 当 涉及 人 时 ， 将 基于 其 色相 提供 颜色 的 名 称 。 这 残 是 为 什么 单纯 HSV (色相 饱和 度 值 ) 可 能 是 色彩 空间 的 最 详实 信息 
之 一 。 叱 完全 符合 人 类 感 台 颜色 的 方式 。 色 调 是 捐 彩 色光 谱 ， 饱 和 度 是 指 特定 的 颜色 强度 ， 色 值 是 指 这 个 像素 的 亮度 。 实 际 上 ， 
这 些 可 使 用 圆柱 格式 表示 。 你 可 以 在 http://infohost.nmt.edu/tcc/help/pubs/colortheory/web/hsv.html 网 址 得 到 一 个 简单 
解释 。 下 面 可 以 把 图 像 的 像素 市 到 HSV 空 间 ， 然 后 使 用 色彩 空间 的 距离 和 国 值 来 跟踪 给 定 的 对 象 。 


接 下 来 看 下 视频 中 的 帧 : 


如 果 通 过 色彩 空间 滤波 器 和 对 象 跟踪 运行 叱 ， 将 会 看 到 下 图 |: 


Output 


正如 所 见 ， 跟 路 器 通过 颜色 特征 识别 视频 中 的 特定 对 象 。 为 了 使 用 这 个 跟 路 器， 还 需要 知道 目标 对 象 的 色彩 分 布 。 下 面 的 代 
码 用 来 跟 路 一 个 彩色 的 对 象 ， 选择 某 些 给 定 的 色相 像素 。 阅 读 每 行 代 码 前 的 代码 注释 ， 看 看 友 生 了 什么 : 


1nt mantint (arges char* ‘argv lj) 


{ 
// 变量 声明 和 初始 化 


// 重复 直到 用 户 按 下 Esc 键 

while (true) 

{ 
// 初始 化 之 前 每 次 迭代 的 输出 图 像 
outputImage = Scalar(0,0,0) ; 


// 捕获 当前 由 


cap >> frame; 


// 检查 frame 是 否 为 空 


// 调整 fame 的 大 小 

resize (frame, frame, 
INTER "AREA)，; 

// HSV 颜色 空间 转换 


cvtColor (frame，hsvImage， 


// 在 HSV 颜色 空间 中 定义 “ 蓝 色 ” 
Scalar lowerLimit = 
Scalar upperLimit = 


的 颜色 范围 


/ 只 获得 蓝 色 的 HSV 图 像 国 值 


inRange (hsvIimage, 


// 计算 按 位 “与 ”输入 的 图 


bitwise and (frame, 


图 像 和 掩 码 


frame, 


// 在 要 抚 平 它 的 输出 上 运行 中 值 滤波 


medianBlur (outputImage, outPutImage ， 


// 展示 输入 和 输出 图 像 


Imshow("InPut" ，Erame) ; 
imshow ("Output", outputImage); 


// 获取 键盘 输入 并 检查 用 户 

// 30-> 等 待 30ms 

// 27->ESC 键 的 ASCII 值 

ch = waitKey (30); 

if (ch == 27) { 
break; 

} 


是 否 按 下 Esc 键 


} 


return 1; 


9.2 ”建立 交互 式 对 象 跟踪 器 


S1Lze()，ScallLngFactor， 


Scalar(60,100,100) ; 
ScalLazr(180 ,255 255) ; 


lowerLimit, upperLimit, 


outputImage, 


scalingFactor, 


COLOR_BGR2HSV) ; 


mask).; 


mask=mask); 


-和 


基于 色彩 空间 的 跟踪 器 能 够 目 由 地 跟踪 一 个 彩色 的 对 象 ， 但 也 要 约束 预定 义 颜 色 。 如 果 只 是 想 要 随机 选取 一 个 对 象 该 如 何 ? 


如 何 建立 对 象 跟踪 器 ， 让 它 可 以 学 习 所 选 对 象 的 特性 并 自动 跟踪 呢 ? 
的 Meanshift 算 法 。 它 基本 上 是 Meanshift 算 法 的 改进 版 本 。 


Meanshift 算 法 的 概念 其 


实 很 简单 。 以 选择 感 兴趣 区 域 ， 并 且 让 对 象 跟踪 器 跟踪 这 一 


这 是 将 CAMShift 算 法 引入 图 像 的 原因 ， 它 代表 不 断 自 适应 


对 象 为 例 。 在 这 一 区 域 ， 选 择 一 群 基 于 


色彩 直方 图 的 点 ， 并 计算 它 质 心 的 空间 点 。 如 果 质 心 位 于 区 域 的 中 心 ， 我 们 融会 知道 对 象 没 有 移动 。 但 如 果 质 心 不 在 区 域 的 中 
心 ， 我 们 融会 知道 对 象 是 在 同 某 一 方向 移动 。 质 心 运动 控制 着 对 象 的 方向 。 所 以 ， 移 动 对 和 用 的 边界 到 新 的 位 置 ， 新 的 质心 变 成 这 
个 边界 框 的 中 心 。 因 为 存在 转移 的 平均 值 (质心 ) ， 所 以 这 种 算法 称 为 Meanshift。 用 这 种 方式 可 保持 对 象 当 前 位 置 的 目 我 更 


新 。 


然而 ，Meanshift 问 题 是 边界 框 的 大 小 不 允许 改变 。 当 对 象 远离 镜头 时 ， 在 人 眼中 ， 对 象 将 变 小 ， 但 Meanshift 不 会 考虑 这 
个 现象 。 在 整个 跟踪 会 话 中 ， 边 界 框 的 大 小 将 保持 不 变 。 因 此 ， 需 要 使 用 CAMShift。CAMShift 的 优点 是 它 可 以 根据 对 象 边 界 
框 的 大 小 来 调整 大 小 。 除 此 之 外 ， 它 可 以 跟 路 对 象 的 移动 方 和 。 


接 下 来 思考 下 图 中 高 之 显示 的 对 象 : 


GAMShift Tracker 


既然 对 象 已 经 选择 好 了 ， 这 个 算法 计算 直方 图 反 向 投影 ， 并 提取 所 有 信息 。 什 么 是 直 万 图 反 向 投影 ? 它 只 是 确定 了 图 像 如 何 
适 配 直 方 图 模型 。 计 算 特殊 对 象 的 直方 图 模型 ， 然 后 使 用 这 个 模型 来 宜 找 图 像 中 的 对 销 。 移 动 对 象 看 看 它 是 如 何 被 跟踪 的 : 


CAMShit Tracker 
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看 起 来 好 像 能 很 好 地 跟 蹊 对象。 改变 方向 ， 并 检查 是 人 否 保持 跟踪 : 


CAMShIft Tracker 


正如 所 网 ， 与 它 的 方向 一 样 ， 边 界 椭圆 改变 了 位 置 。 改 变 对 象 的 透视 ， 看 看 是 否 仍 然 能 够 跟 路 它 : 


可 以 跟 路 ! 边界 椭圆 更 改 纵横 比 揭露 这 样 一 个 事实 : 对 象 看 起 来 倾 入 了 (由 于 透视 变换 的 原因 ) 。 看 看 下 述 代码 中 的 用 户 界 
面 功能 : 


Mat image; 

Point originpoint; 

Rect selectedRect,; 

bool selectRegion = false; 
int trackingFlag = 0; 


// 跟踪 鼠标 事件 的 函数 
void onMouse(int event, int x, int y, int, void*) 


{ 


if (selectRegion) 


{ 


selectedRect .x MIN (x, originPoint .x),; 
selectedRect.y MIN(y, originPoint .Y) ; 
selectedRect .width = std::abs(x - originpPoint .X) ; 
selectedRect .height = std::absly - originPoint .Y) ; 


selectedRect &= Rect(0, 0, image.cols, image .rows),; 


switch (event,) 
{ 
case CV_ EVENT LBUTTONDOWN: 
originPpoint = Poilnt (x Y): 
selectedRect = Rect (x,y,0,0),; 
selectRegion = true,; 
break,; 


Case CV _ EVENT LBUTTONUP: 
selectRegion = false; 
if( selectedRect .width > 0 && selectedRect .height > 0 ) 


人 


trackingFlag = -1; 


} 


Dreak ; 


Nd 


这 个 浮 数 基本 上 捕获 窗口 中 选 定 矩形 的 坐标 。 用 尸 只 需要 点 击 它们 ， 用 昭 标 拖 动 它们 。 有 一 系列 OpenCV 内 置 销 数 ， 可 以 检 
测 这 些 不 同 的 鼠标 事件 。 
这 里 是 用 来 完成 基于 CAMShift 的 对 象 跟踪 的 代码 : 


int main(int argc, char* argv|l]) 


{ 
// 变量 声明 和 初始 化 


// 重复 直到 用 户 按 下 Esc 键 


while (true) 


( 
// 捕获 当前 帧 


cap >> frame,; 


// 检查 frame 是 否 为 空 
if (frame .empty () ) 
preak ; 


// 重 置 fame 大 小 
resize (frame, frame, Size(), scalingFactor, scalingFactor., 
INTER ARERA) ; 


// 克隆 输入 frame 


frame .copyTo (imadgqe) ; 


// HSV 颜色 空间 转换 
CVtColor (Image，hsvImage， COLOR BGR2HSV) ; 


现在 ，HSV 图 像 在 这 一 点 上 等 竺 处理 。 下 面 继续 ， 看 一 下 如 何 使 用 靖 值 处 理 图 像 : 


lf (trackingFlag) 

人 
// 检查 hsvimage 中 的 所 有 值 ， 看 是 否 在 指定 的 范围 之 内 
// 并 把 结果 放 在 mask 中 


inRange (hsvIimage, Scalar(0, minSaturation, minValue), 
Scalar(180, 256, maxValue), mask).; 


// 混合 指定 的 通道 
int channels[] = {0, 0}; 


hueImage .Create (hsvIimage.size(), hsvIimage.depth()); 
mixChannels(&hsvIimage, 1, &hueImage, 1, channels, 1);， 


lf (trackingFlag < 0) 
| 
// 创建 基于 选 定 兴趣 区 域 的 图 像 
Mat roi (hueImage, selectedRect), maskroil (mask, 
selectedRect).,， 


// 计算 直方 图 并 将 其 正 第 化 
aleHNnet (RroL,. 1 0 WaBkrorL;: Ht LB. SiStS9lLZE, 
ghistRanges),; 


normalize(hist, hist, 0, 255, CV MINMAX); 


trackingRect = selectedRect., 


trackingFlag |; 


正如 所 见 ， 我 们 使 用 了 HSV 图 像 计算 直方 图 的 区 域 。 在 HSV 谱 上 使 用 辣 值 定位 所 需 的 色彩 ， 然 后 基于 这 个 过 渡 出 图 像 。 接 下 
来 介绍 如 何 计算 直方 图 反 向 投影 : 


// 计算 直方 图 反 向 投影 
calcBackProject (&hueImage, 1, 0, hist, backpro], 
thistRanges),; 
backpro] &= mask; 
RotatedRect rotatedTrackingRect = CamShift (backpro], 
trackingRect, TermCriteria(CV TERMCRIT EPS | 
CV _ TERMCRIT ITER, 10, 1)); 


// 检查 trackingRect 面积 是 否 过 小 
if(trackingRect .area() <= 1) 
| 
// 使 用 偏 移 的 值 以 确保 trackingRect 具有 最 小 尺寸 
ne Eols = Dackprol Golsgs TOwWS, = 了 acCKDYEOGIT EDOWB 
ijnt offset = MIN(rows, cols) + 1: 
trackingRect = Rect (trackingRect .x - offset, 


trackingRect.y - offset, trackingRect .x + offset, 
trackingRect.y + offset) & Rect(0, 0, cols, rows),; 


‘< 


现在 已 经 准备 好 要 显示 结果 了 。 使 用 旋转 的 矩形 在 兴趣 区 域 周 围 绘制 一 个 椭圆 


// 绘制 图 像 上 方 的 顶 贺 
ellipse (image, rotatedTrackingRect, Scalar(0,255,0), 3, 
CV_AA),; 


// 使 用 兴趣 区 域 负面 影响 
lif (selectRegion && selectedRect .width > 0 && SelectedRect . 


height > 0) 


{ 


Mat roi(image, selectedRect).; 
bitwise not(roi, roi); 


| 


// 显示 输出 图 像 


imshow (windowName, image); 


// 获取 键盘 输入 并 检查 用 户 是 否 按 下 Esc 键 
// 27->Esc 键 的 ASCII 值 
en := NATLRKev ID > 


if (ch == 27) { 
break.; 
} 
} 
return 1; 


9.3 ”使 用 Harris 角 所 检测 器 检测 点 


角 操 检 测 是 一 种 检测 图 像 中 兴趣 点 的 常用 技术。 这 些 兴 趣 点 在 计算 机 视 完 术语 中 被 称 为 特征 点 或 特征 。 一 个 角 点 基本 上 是 两 
条 边 的 交叉 后。 兴趣 点 基本 上 是 图 像 中 唯一 可 以 被 检测 的 东西 。 一 个 角 操 是 一 个 特殊 的 兴趣 点 。 这 些 兴 趣 点 可 以 用 于 搬 绘图 像 。 
对 象 跟 路、 图像 分 类 、 视 党 搜索 等 应 用 中 广泛 使 用 了 这 些 兴 趣 点 。 因 为 角 点 很 有 趣 ， 下 面 看 看 如 何 检测 它们 。 


在 计算 机 视 完 中 ， 还 有 一 种 名 为 Harris 角 扣 检 测 器 的 流行 角 扣 检 测 拷 术 。 构 建 一 个 基于 偏 导 数 的 2x2 算 阵 的 灰 度 图 像 ， 然 后 
分 析 特 征 值 。 想 象 一 下 在 图 像 中 的 一 小 块 。 我 们 的 目的 是 要 检查 这 一 小 块 是 否 有 一 个 角落 。 因 此 ， 考 虑 所 有 相 邻 的 小 块 并 计算 小 
块 和 所 有 那些 邻 域 像 泰 块 之 间 的 强度 差异 。 如 果 所 有 方向 有 高 度 不 同 ， 束 会 知道 这 一 小 块 中 有 一 个 角落 。 这 实际 上 过 度 简 化 了 实 
际 的 算法 ， 但 它 涵盖 了 要 点 。 如 果 想 了 解 基础 数学 细节 ， 可 以 在 http://www.bmva.org/bmvc/1988/avc-88-023.pdf 上 阅读 
Harris 和 Stephens 的 论文 。 角 点 是 指 两 个 特征 值 将 有 较 大 值 的 一 个 点 。 


运行 Harris 角 点 检测 器 ， 如 下 图 所 示 : 


Harris Corner Detector 


正如 所 见 ， 在 电视 过 控 器 上 的 绿色 圆圈 是 被 检测 角 后 。 这 将 更 改 基 于 所 选 检测 器 的 参数 。 如 果 修 改 参 数 ， 更 多 的 点 可 能 得 到 
仿 测 。 如 果 让 条 件 苛刻 ， 那 么 可 能 束 不 能 检测 软 角 点 。 接 下 来 看 看 代码 如 何 实 现 检 测 Harris 角 后 : 


int main(int argc, char* argv[]) 


人 
// 变量 声明 和 初始 化 


// 重复 直到 用 户 按 Esc 键 


Wille (taue) 


{ 
// 捕获 当前 帧 


cap >> frame; 


// 调整 fame 的 大 小 
resize(lframe, frame, Size(), scalingFactor, scalingFactor, 
INTER ARERA) ; 


dst = Mat: :zeros (frame.Size()，CV 32FC1) ; 


// 转换 为 灰 度 图 像 
cvtColor(frame, frameGray, COLOR BGR2GRAY ) ; 


// 检测 角 点 
cornerHarris (frameGray, dst, blockSize, apertureSize, k, 
BORDER DEFAULT).; 


// 规格 化 

normalize(ldst, dst norm, 0, 255, NORM MINMAX, CV 32FC]1, 
Mat ()); 

convertScaleAbs (dst norm, dst norm scaled); 


将 图 像 转换 为 灰 度 ， 并 使 用 参数 检测 角 点 。 可 以 在 .cpp 文 件 中 找到 完整 的 代码 。 这 些 参数 在 大 量 被 检测 到 的 点 中 起 着 重要 作 
用 。 你 可 以 在 http://docs.opencv.org/2.4/modules/imgproc/doc/feature detection.html?highlight=cornerharris#void 
cornerHarris (InputArray src, OutputArray dst, int blockSize, int ksize, double k, int borderType) 查阅 Harris 角 点 检 


测 器 。 
现在 有 了 所 有 需要 的 信息 。 下 面 继 续 在 角 点 上 男 加 显示 结果 : 


// 绘制 一 个 圆圈 周围 的 每 个 角落 


for(int J] = 0; ] < dst norm.rows ; ]J++) 


{ 


orlint tt = Wy Sw dat normCoLss 十 二 | 


1f (Int)ont normateftloats(t]y1] s thregh) 


cirole(lframes Polntlil 913 BB Bealar(0.255 0)% 5” 


} 
// 显示 结果 


imshow (windowName, frame).， 


// 获取 键盘 输入 并 检查 用 户 是 否 按 下 Esc 键 
// 27->Esc 键 的 ASCII 值 
ch = WaltKev(10) ; 
if (ch == 27) { 
Dreak ; 
} 


} 
// 释放 视频 捕获 对 象 


cap .release() ; 


destroyAllWindows () ; 


return 工 ; 


正如 所 见 ， 这 段 代 码 使 用 blocksize 作 为 输入 参数 。 根 据 所 选 尽 寸 ， 性 能 将 会 友 生 变化 。 开 始 使 用 值 为 4， 运 行 它 看 看 会 友 生 


什么 。 


9.4 Shi-Tomasi 角 点 检测 絮 


在 很 多 情况 下 ，Harris 角 点 检测 器 执行 效果 比较 好 ， 但 还 可 以 改进 。 在 Harris 和 Stephens 友 表 论 文 6 年 之 后 ，Shi-Tomasi 写 
了 一 篇 更 好 的 论文 “Good Features To Track”。 你 可 以 
在 http://www.ai.mit.edu/courses/6.891/handouts/shi 94good.pdf 阅 读 原 论文 。 它 们 用 不 同 的 打分 函数 来 提高 整体 质量 。 使 
用 这 一 方法 ， 可 以 在 给 定 的 图 像 中 找到 NN 个 最 强 角 点 。 当 不 想 从 图 像 中 提取 信息 并 使 用 每 一 个 角 后 时 ， 这 是 非常 有 用 的 。 正 如 前 
文 所 述 ， 民 好 的 兴趣 点 探测 器 在 对 象 跟 踊 、 目 标识 别 、 图 像 搜索 等 应 用 中 是 非常 有 用 的 。 


如 果 将 Shi-Tomasi 角 点 检测 器 应 用 于 图 像 ， 会 看 到 下 图 : 


Feature points 


可 以 在 这 里 看 到 捕获 帧 中 的 所 有 要 点 。 看 看 来 跟 路 这 些 功能 的 代码 : 


int main(int argc, char* argv[]) 


人 
// 变量 声明 和 初始 化 


// 重复 直到 用 户 按 Esc 键 


while (true) 


{ 
// 捕获 当前 由 


cap >> frame,; 


// 调整 fame 的 大 小 
resize{frame, frame, Size(), scalingFactor, scalingFactor., 
INTER AREA) ; 


// 转换 为 灰 度 图 像 


cvtColor (frame, frameGray, COLOR BGR2GRAY ) ; 


// 初始 化 Shi-Tomasi 算法 的 参数 
Vector<Polnt2f> CormneLzsS ; 

double qualityThreshold = 0.02; 
double minDist = 15， 

int blockSize = 5; 

bool useHarrisDetector = false; 
double Kk = 0.07; 


// 克隆 输入 自 
Mat frameCopy; 
frameCopy = frame.clone(); 


// 应 用 角 点 检测 

goodFeaturesToTrack (frameGray, corners, numCorners, 
qualityThreshold, minDist, Mat(), blockSize, 
useHarrisDetector, Kk).; 


提取 帧 并 使 用 goodFeaturesToTrack 函 数 检测 角 点 。 重 要 的 是 理解 检测 到 角 点 的 数量 将 取决 于 选择 的 参数 。 你 可 以 
在 http://docs.opencv.org/2.4/modules/imgproc/doc/feature detection.html? 
highlight=goodfeaturestotrack#goodfeaturestotrack 找 到 详细 的 解释 。 下 面 继续 在 显示 输出 图 像 中 的 这 些 点 上 绘制 画 圆 : 


// 参数 为 圈 上 显示 的 角 点 

int radius = 8; // 圆圈 的 半径 
int thickness = 2; // 圆圈 的 厚度 
int lineType = 8; 


// 用 圆圈 绘制 的 检测 到 的 角 点 


for(size t i = 0; i < corners.size(); i++) 


{ 


Scalar color = Scalar (rng.uniform(0,255), 
从 人 OO . Tng UNFormd0. 255)7: 

circle(lframeCopy, corners|[li], radius, color, 
thickness, lineType, 0);， 


} 
/// 显示 得 到 的 


imshow (windowName, frameCopy); 


// 获取 键盘 输入 并 检查 用 户 是 否 按 下 Esc 键 
// 27->Esc 键 的 ASCII 值 
ch = waitKey (30),; 
if (ch == 27) { 
preak ; 
} 


} 
// 释放 视频 捕获 对 象 


cap .release() ; 


// 关闭 所 有 窗口 
destroyAllWindows () ; 


return 1,; 


这 个 程序 使 用 numCorners 作 为 输入 参数 。 这 个 值 指 示 想 要 跟踪 的 角 点 的 最 大 数目 。 从 100 中 的 任 一 值 开 始 并 运行 ， 看 看 会 
发 生 什 么 。 如 果 增 加 这 个 值 ， 将 看 到 更 多 的 特征 点 被 检测 到 。 


9.5 ”基于 特征 的 跟踪 


基于 特征 的 跟 路 是 指 在 视频 的 连续 帧 中 跟 踊 单 个 特征 点 。 这 里 的 好 处 是 不 需要 检测 每 帧 图 像 中 的 特征 后。 可 以 一 次 检测 到 它 
们 ， 并 保持 跟 趴 。 这 比 在 每 一 帧 上 运行 的 探测 器 更 为 有 效 。 可 以 使 用 交流 技术 来 跟 踊 这 些 特征 。 光 流 是 在 计算 机 视 嘻 中 最 受 欢 迎 
的 技术 之 一 。 在 视频 流 中 ， 选 择 特征 点 ， 并 跟 路 它们 。 当 检测 到 的 特征 点 时 ， 计 算 位 移 向 量 ， 并 在 连续 帧 间 显示 这 些 关 键 点 的 运 
动 。 这 些 向 量 被 称 为 运动 向 量 。 


某 一 特定 点 的 运动 向 量 只 是 一 个 用 来 指示 在 哪里 那 点 与 前 一 帧 相 比 已 经 移动 的 定向 行 。 不 同 的 方法 用 来 检测 这 些 运动 向 量 。 
两 个 最 常用 的 算法 是 Lucas-Kanade 算 法 和 Farneback 算 法 。 


9.5.1 Lucas-Kanade 方 法 


Lucas-Kanade 方 法 用 于 入 哎 光 流 跟 踪 。 稀 跤 指 的 是 特征 点 的 数量 相对 较 少 。 你 可 以 
在 http://cseweb.ucsd.edu/classes/sp02/cse252/lucaskanade81.pdf 读 到 原 论文 。 下 面 开 始 介 绍 提取 特征 点 的 过 程 。 对 于 每 
个 特征 品 ， 在 特征 点 的 中 心 创建 3x3 块 。 假 定 每 个 块 内 的 所 有 扣 都 将 具有 类 似 的 运动 。 根 据 现 有 的 问题 ， 可 以 调整 这 个 窗口 的 大 


小 


O 


当前 帧 中 的 每 个 特征 点 ， 及 取 周 围 3x 3 块 作为 参考 点 。 在 这 个 块 中 ， 看 看 前 一 帧 的 邻 域 来 获得 最 佳 的 匹配 。 这 邻 域 通常 是 
于 3x3， 因 为 想 要 接近 正在 考虑 的 块 。 现 在 ， 考 虑 在 当前 帧 的 前 一 帧 中 苞 配 块 的 中 心 像素 路 径 将 成 为 运动 向 量 。 对 所 有 的 特征 点 
执行 此 操作 ， 并 提取 所 有 运动 向 量 。 


接 下 来 考虑 下 面 的 帧 : 


Lucas Kanade Tracker 
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需要 添加 一 些 想 要 跟踪 的 点 。 接 下 来 ， 用 鼠标 点 击 这 个 窗口 中 的 一 群 点 : 
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如 果 移 动 到 另 一 个 位 置 ， 将 看 到 ， 点 仍 在 误 磊 小 
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增加 更 多 的 点 ， 看 看 会 友 生 什么 : 


持续 跟 蹊 这 尝 点 。 但 是 ， 由 于 突出 (prominence) 、 运 动 速度 等 因素 ,一 些 要 点 将 在 两 者 之 间 被 丢弃 。 如 
果 想 保持 它们 ， 只 需要 持续 向 其 中 添加 更 多 的 点 。 还 可 以 人 允许 用 户 企 输入 视频 中 选择 兴趣 区 域 并 从 这 些 兴 趣 区 域 中 提取 特征 点 ， 
然后 通过 绘图 的 边界 框 来 跟 中 对 象 。 这 是 很 好 玩 的 练习 ! 


正如 所 见 ， 它 将 
口 重 


执行 基于 Lucas-Kanade 的 跟 路 代码 如 下 : 


nt maint(lint argc, char* argvl]) 


{ 
// 变量 声明 和 初始 化 


// 重复 直到 用 户 按 下 Esc 键 


while (true) 


{ 
// 捕获 当前 帧 


cap >> frame; 


// 检查 frame 是 否 为 空 
if (frame.empty ()) 


break,; 


// 调整 fame 的 尺寸 


reslize (frame, frame, Size(), scalingFactor, scalingFactor, 
INTER AREA),; 


// 复制 输入 的 帧 


frame.copyTo (image).; 


// 将 图 像 转换 为 灰 度 


cvtColor(image, curGrayImage, COLOR BGR2GRAY),; 


// 检查 是 否 有 跟踪 点 
1f(!trackingPoints [0] .empty () ) 


{ 
// 使 用 状态 向 量 来 指示 相应 的 功能 流 是 否 已 被 找到 


vector<uchar> StatuSVector ; 


// 误差 向 量 表示 相应 功能 错误 


vector<float> errorVector:; 


// 检查 之 前 的 图 像 是 否 为 空 
if (PrevGrayImage .empty () ) 


{ 


CurGrayImage .copyTo (prevGrayImage).,; 


// 使 用 Lucas-Kanade 算法 计算 光 流 

calcOpticalFlowPyrLK (prevGrayImage, curGrayImage, 
trackingPoints[0], trackingPoints|[1], statusVector, errorVector, 
windowSize, 3, terminationCriteria, 0, 0.001).; 


使 用 当前 图 像 和 前 一 张 图 像 计算 光 流 信息 。 不 用 说 ， 输 出 质量 将 取决 于 参数 选择 。 你 可 以 
在 http://docs.opencv.org/2.4/modules/video/doc/motion analysis and object tracking.html#calcopticalflowpyrlk 找 到 


更 多 有 天 参数 的 详细 信息 。 为 了 提高 质量 和 健壮 性 ， 需 要 过 滤 出 十 分 接近 对 方 的 点 ， 因 为 它们 不 添加 新 的 信息 。 运 行 如 下 代码 : 
int count = 0;，; 


// 任何 两 个 跟踪 点 之 间 的 最 小 距离 


int minDist = 7; 
for(int i=0; i < trackingPoints [1] .size(); i++) 
人 
if (pointTrackingFlag) 
{ 
/* 如 果 从 现 有 点 算 ， 新 的 点 是 在 minDist 距离 内 ， 它 将 不 会 被 跟踪 */ 
It (norm(currentPoint - trackingPoints [1] [i]) <= 
minDist) 


{ 


pointTrackingFlag = false; 
continue,; 


} 


// Check if the status Vector is good 
if(!statusVector [il]) 
continue; 


trackingPoints|[1] [count++] = trackingPoints [1] [i],; 


// 为 每 个 跟踪 点 绘制 填充 的 图 
int radius = 8， 
int thickness = 2;， 
int lineType = 8; 
circle(limage, trackingPoints[1] [i], radius, 
Scalar(0,255,0), thickness, lineType).,， 


} 


trackingPoints [1] .resize (count).; 


我 们 已 经 获取 到 跟踪 点 。 下 一 步 是 重 定义 这 些 点 的 位 置 。 这 里 的 ，“ 重 定义 ”意味 着 什么 ? 为 了 提高 计算 速度 ， 还 需要 涉 
某 种 程度 的 量化 。 通 俗 地 说 ， 可 以 把 它 看 成 “四 人 省 五 入 ” 。 现 在 ， 在 近似 的 区 域 中 ， 可 以 重 定义 区 域内 点 的 位 置 ， 从 而 得 到 更 准 


确 的 结果 。 运 行 如 下 代码 : 


// 精确 的 特征 点 的 位 置 
If (pointTrackingFlag && trackingPoints[1] .size() < 
maxNumpoints) 


{ 


vector<Point2f> tempPoints; 
tempPoints.push back (currentPoint).,; 


// 亚 像 素 级 精度 的 角落 位 置 重 定义 功能 


// 在 这 里 ，pixel 指 图 像 修 补 程序 的 大 小 windowSize， 而 不 是 实际 图 像 像 素 
CornerSubPix (curGrayImage, tempPoints, windowSize, 
cvSize(-1,-1), terminationCriteria); 


trackingPoints[1] .push back (tempPoints [0]) ; 
pointTrackingFlag = false; 


} 


// 显示 的 图 像 跟踪 点 


imshow (windowName, image); 


// 检查 用 户 十 否 按 下 Esc 键 
char ch = WwWalLtKeYy(10) ; 
if(ch == 27) 

break; 


// 交换 point 向 量 来 更 新 previous 到 current 
std::swap (trackingPoints[1], trackingPoints{(0]).; 


// 将 以 前 的 图 像 更 新 为 当前 图 像 来 更 新 图 像 


cV::Swap(PrevGrayImage， curGrayImage),; 


} 


return 工 ; 


9.5.2 ”Farneback 人 算法 


Gunnar Farneback 提 出 的 光 沈 算 法 是 用 于 密集 跟 跃 的 。 密 集 跟 蹊 广泛 应 用 于 机 器 人 技术 、 现 实 近 林 增强、 三 维 映射 ， 等 
等 。 你 可 以 在 http://www.diva-portal.org/smash/get/diva2:273847/FULLTEXT01.pdf 查 阅 到 原 论文 。Lucas-Kanade 算 法 是 
稀 踊 扩 术 ， 这 意味 着 只 需 处 理 整 个 图 像 中 的 一 些 像 素 。 另 一 方面 ，Farneback 算 法 是 密集 扩 术 ， 需 要 处 理 给 定 图 像 中 的 所 有 像 
率 。 所 以 ， 显 然 这 是 一 种 权衡 。 密 集 技术 更 准确 ， 但 是 更 慢 。 稀 足 扩 术 不 精确 ， 但 是 快 。 对 于 实时 应 用 ， 人 们 倾向 于 稀 跻 撤 木 。 
当 应 用 程序 的 时 | 间 和 复杂 性 不 作为 考虑 因素 时 ， 人 们 更 喜欢 用 密集 技术 来 提取 友 现 的 细节 。 

在 他 的 论文 中 ，Farneback 基 于 两 个 帧 的 多 项 式 展开 摘 述 了 一 种 密集 光 流 估算 方法 。 我 们 的 目的 是 估算 这 两 个 帧 乙 间 的 运 
动 ， 并 且 它 基本 上 是 一 个 三 步 过 程 。 在 第 一 步 中 ， 这 两 个 帧 中 的 每 个 邻 域 多 项 式 远 近 。 在 这 种 情况 下 ， 我 们 只 对 二 次 多 项 式 感 兴 
趣 。 下 一 步 是 通过 全 局 位 移 来 构造 一 个 新 的 信号 。 现 在 ， 每 个 邻 域 近似 为 一 个 多 项 式 ， 我 们 需要 看 看 这 个 多 项 式 经 历 理想 的 转换 


后 会 友 生 什 么 。 最 后 一 步 是 用 二 次 多 项 式 收 荔 率 中 的 等 值 系数 计算 整体 位 移 。 


想 一 下 ， 假 定 整 个 信号 是 一 个 单一 的 多 项 式 ， 并 存在 全 局 转换 相关 的 两 个 信号 。 这 不 是 一 个 现实 的 场景 。 所 以 ,我们 还 看 什 
么 ? 好 吧 ， 我 们 的 目标 是 找 出 这 些 足 够 小 的 错误 以 至 于 可 以 建立 一 种 有 用 的 跟 路 功能 的 算法 。 


下 面 看 看 静态 图 像 


Optical Flow 


如 果 我 侧身 移动 ， 丈 会 看 到 在 水 平方 同上 的 向 量 点 运动 。 它 们 简单 地 跟 中 我 的 头 部 运动 : 
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如 果 我 离开 网 络 摄像 头 ， 融 可 以 看 到 与 图 像 平 面 垂 直 的 方向 上 的 同 量 点 运动 : 


执行 使 用 Farneback 算 法 的 基于 光 流 跟 路 的 代码 如 下 : 


int main(int, char** argyv) 


人 
// 变量 声明 和 初始 化 


// 重复 直到 用 户 按 下 Esc 键 


while (true) 


{ 
// 捕获 当前 帧 


Cap >> frame; 


if (frame .empty() ) 
break; 


// 调整 frame 的 尺寸 
resize (frame, frame, Size(), scalingFactor., 
INTER AREA),; 


// Convert to grayscale 
cvtColor (frame, curGray, COLOR BGR2GRAY); 


// 检查 图 像 是 否 有 效 
if (prevGray .data) 


{ 
// 初始 化 光 流 算法 的 参数 
float pyrScale = 0.5; 


scalingFactor, 


int numLevels = 3; 

int windowSize = 15; 

int numIterations = 3;，; 
int neighborhoodSize = 5 
float stdDeviation = 1.2 


// 使 用 Farneback 算法 计算 光 流 图 
calcOpticalFlowFarneback (prevGray, curGray, flowImage, 


pyrScale, numLevels, windowSize, numIlterations, neighborhoodSize, 
stdDeviation, OPTFLOW USE INITIAL FLOW); 


正如 所 见 ， 使 用 Farneback 算 法 来 计算 光 流 向 量 。CalcOpticalFlowFarneback 函 数 的 输入 参数 是 跟踪 质量 的 重要 参考 。 你 
可 以 在 http://docs.opencv.org/3.0-beta/modules/video/doc/motion analysis and object tracking.html 上 查阅 到 这 些 参 
数 的 详细 信息 。 下 面 继续 在 输出 图 像 上 绘制 这 些 向 量 : 


// 转化 为 3 通道 的 RGB 
cvtColor (prevGray, flowImageGray, COLOR GRAY2BGR); 


// 绘制 光 流 地 图 
drawOpticalFlow (flowImage, flowImageGray),; 


// 显示 输出 图 像 


Imshow(windowName，f1LowImageGrav) ; 


// 如 果 用 户 按 Esc 键 ， 中 断 循 环 
ch = WwWaltKev(10) ; 
1 en "Ss | 

break; 


// 交换 前 一 张 图 像 与 当前 图 像 


std::swap (prevGray, curGray); 


return 1; 


调用 drawOpticalFlow 消 数 来 绘制 这 些 光 流 向 量 。 这 些 向 量 表示 运 动 的 方向 。 下 面 要 看 看 消 数 是 如 何 得 出 这 些 向 量 世 


(Ea 


// 计算 光 流 地 图 的 函数 
void drawOpticalFlow(const Mat& flowImage, Mat& flowImageGray) 


{ 


int stepSize 


16; 
Scalar color = Scalar(0, 255, 0);， 


// 在 运动 向 量 输入 图 像 上 绘制 点 的 均匀 网 格 


for(int y = 0; y < flowImageGray.rows; Y += StepSize) 


人 
for( Int x = 0; x < flowImageGray.cols; x += StepS1Lze) 
| 
// 圆圈 表示 点 的 均匀 网 格 
1Int radius = 2， 
nt thickness = -1， 
circelel(lrfLowImadegrav, .Bontix vy radlus, COLOr. 
thickness).; 


// Lines to indicate the motion vectors 

Point2f pt = flowImage.at<Point2f>(y, x); 

line (flowImageGray, Point (x,y), Point (cvRound (x+pt .x), 
CvRound (y+pt .y)), color); 


} 
} 
9.6 忆 结 


在 本 章 中 ， 我 们 了 解 了 对 象 跟踪 。 学 会 了 如 何 使 用 HSV 颜 色 空 间 来 跟踪 彩色 对 象 。 讨 论 了 用 于 跟踪 对 象 的 集群 技术 ， 以 及 如 
何 使 用 CAM Shift 算 法 建立 交互 式 对 象 跟 路 器 。 我 们 还 学 习 了 角 点 探测 器 和 如 何 跟 路 实时 视频 中 的 角 点 。 讨 论 了 如 何 使 用 光 流 跟 
踪 视 频 中 的 特征 。 最 后 学 习 了 Lucas-Kanade 和 Farneback 算 法 的 基本 概念 ， 以 及 如 何 实现 它们 。 


在 下 一 章 中， 我们 将 讨论 分 割 算法 ， 以 及 如 何 将 它们 用 于 文本 识别 。 


第 10 章 ”文本 识别 中 的 分 割 算法 


在 前 几 章 中 ， 我 们 了 解 了 一 系列 的 图 像 处理 技 术 ， 如 闪 值 、 轮 廓 摘 述 竺 和 数学 形态 学 。 在 本 章 中 ， 我 们 将 讨论 处 理 扫 换文 档 
时 的 弟 见 问题 ， 如 文本 识别 或 文本 旋转 。 我 们 还 将 学 习 如 何 绪 合 前 面 章 节 中 展示 的 扩 术 来 解决 这 些 问 题 。 最 后 会 得 到 可 以 被 友 大 
到 OCR (Optical Character Recognition， 光 学 字符 识别 ) 库 的 文本 分 割 区 域 。 


学 完 本 章 你 可 以 回答 出 以 下 几 个 问题 : 
" 有 什么 样 的 OCR 应 用 程序 ? 
` 什么 是 编写 OCR 应 用 程序 第 见 的 问题 ? 


. 我 们 如 何 识别 文档 区 域 ? 


` 我 们 如 何 处 理 例如 文本 倾斜 或 者 文本 中 含 其 他 元 素 等 问题 ? 


. 我 们 如 何 使 用 Tesseract OCR 识别 文本 ? 


10.1 OCR 简介 


图 像 上 文本 识别 是 计算 机 视 党 中 非常 流行 的 一 种 应 用 。 这 个 处 理 通 弟 被 称 为 OCR， 它 有 以 下 几 个 步 又 : 
: 文本 预 处 理 和 分 着: 在 这 个 步骤 中 ， 计 算 机 必须 学 会 处 理 图 像 唆 声 和 旋转 〈 倾 斜 ) ， 并 确定 哪些 区 域 是 候选 文本 区 域 。 


` 文本 识别 : 这 是 一 个 识别 文本 中 的 每 一 个 字母 的 处 理 。 虽 然 这 也 是 计算 机 视觉 的 主题 ， 但 是 在 这 本 书 中 不 会 介绍 如 何 使 用 
OpenCV 实 现 。 相 反 ， 我 们 将 展示 如 何 使 用 Tesseract 库 做 到 这 一 步 ， 为 它 被 OpenCV 3.0 集 成 了 。 如 果 你 有 兴趣 学 习 Tesseract 的 功 
能 是 如 何 实现 的 ， 可 以 看 看 Packt 出 版 社 出 版 的 《Masterineg OpenCV》 ， 书 中 有 关于 汽车 牌照 识别 的 章节 。 


预 处 理 和 分 割 相位 可 以 根据 源 文 本 的 不 同 而 产生 很 大 差异 。 接 下 来 看 看 预 处 理 的 冲 见 情况 : 


- 用 扫 摘 仪 生成 OCR 应 用 程序 是 一 个 非 钊 可 靠 的 文本 来 源 : 在 这 种 情况 下 ， 图 像 背 景 通常 是 白色 的 ， 文 件 也 几乎 是 与 扫描 
仪 边 缘 对 齐 的 。 将 要 被 扫描 的 内 容 包含 的 是 几乎 没有 噪声 的 文本 。 这 种 应 用 依赖 于 简单 的 预 处 理 技术 ， 可 以 快速 调整 文本 ， 并 保 
桂 快速 扫描 速度 。 书 写 OCR 应 用 软件 时 ， 通 常 是 为 用 户 识别 重要 的 文本 区 域 ， 创 建 可 靠 的 文本 和 索引 的 传输 途径 。 


` 在 随便 拍摄 的 图 像 或 视频 中 扫 拉 文本: 这 是 一 个 更 为 复杂 的 场景 ， 因 为 没有 迹象 表明 文本 会 显示 在 什么 地 方 。 这 个 场景 被 
称 为 场景 文本 识别 ，OpenCV 3.0 引 入 了 一 个 全 新 的 库 来 处 理 这 个 问题 ， 我 们 将 在 第 11 章 介绍 。 一 般 情 况 下 ， 预 处 理 器 将 使 用 纹 
理 分 析 技 术 来 识别 文本 形态 。 


为 历史 文本 创建 优质 OCR 程 序 : 历史 文本 也 需要 扫描 。 


然而 ， 它 们 有 具有 一 些 额外 的 问题 ， 例 如 因 旧 纸 的 颜色 和 用 时 习惯 产生 的 噪声 。 其 他 常见 的 问题 是 装饰 字符 ， 特 殊 的 文本 字 
体 ， 以 及 随 着 时 间 的 推移 墨水 已 被 降解 的 低 对 比 大 的 内 容 。 为 手头 文件 写 特 定 的 OCR 软件 并 不 少见 。 


. 扫 拉 地图、 图 表 和 航 图 : 地 图 、 图 表 和 航 图 构成 了 一 个 困难 的 场景 ， 因 为 文本 通常 会 出 现在 任何 方向 ， 甚 至 图 像 的 中 间 。 
例如 ， 城 市 名 称 经 第 聚集 ， 而 海洋 的 名 字 经 常 跟随 国家 海岸 轮廓 线 。 有 些 航 图 着 色 很 重 ， 文 字 会 同时 出 现在 浅 色 调和 暗色 调 区 
域 。 


OCR 应 用 和 妥 略 会 根据 识别 目标 不 同 而 不 同 。 它 们 用 于 全 文 搜索 ”或 者 应 该 在 一 个 逻辑 域 中 用 于 信息 结构 化 搜索 将 文本 分 隅 
为 索引 数据 库 ? 


本 章 的 重点 放 在 预 处 理 扫描 文本 或 摄像 机 提 摄 的 文本 上 。 假 设 这 一 文本 是 图 像 的 主要 目的 ， 如 照 厂 、 纸 张 或 卡片 。 例 如 ， 下 
面 的 停车 票 : 


我 们 试图 删除 常见 的 噪声 ， 人 处理 文 本 旋转 (如 果 有 的 话 ) 和 裁剪 可 能 的 文本 区 域 。 虽 然 大 多 数 OCR API 已 经 自动 做 了 这 些 
事情 ， 并 且 还 可 能 使 用 了 最 先进 的 算法 ， 但 是 仍然 值得 了 解 下 底层 是 如 何 操作 的 。 这 会 让 你 更 好 地 理解 大 多 数 的 OCR API 的 参 


数 ， 更 从 容 地 面 对 洪 在 的 OCR 问 题 。 
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软件 通过 与 先前 记录 的 数据 进行 比较 来 识别 文本 。 如 果 输 入 的 文本 是 清晰 的 ， 字 母 是 在 一 个 垂直 的 位 置 ， 并 且 没 有 其 他 元 
提高 分 类 结果 。 人 在 这 一 书 中 ， 我 们 将 学 习 如 何 调 整 文本 。 这 个 阶段 被 称 为 了 预 处 


素 ， 像 被 友 送 到 分 类 软件 的 图 像 那 样 ， 束 可 以 大 大 


理 。 


图 像 的 辣 值 化 通 党 是 预 处 理 阶 段 的 开始 。 这 消除 了 所 有 的 头 色 信息 。 大 多 数 OpenCV 的 立 数 需要 有 用 信息 处 被 填 入 日 色 ， 背 


景 被 填 入 黑色 。 所 以 ， 接 下 来 开始 创建 一 个 符合 这 一 标准 的 阅 值 消 数 : 


#include <opencv2/opencv.hpp> 
#include <vector> 


using namespace std,; 
US1ing namespace cv; 


Mat binarize (Mat input) 


人 
/ /使 用 otsu 界定 输入 图 像 


Mat binaryImage; 


cvtColor(input, input, CV BGR2GRAY) ; 
threshold(input, binaryImage, 0, 255, THRESH OTSU) ; 


/ /计算 黑白 像素 的 数目 

int white = countNonZero(binaryImage).,; 

int black = binaryImage.size() .area() - white; 

/ /如 果 图 像 大 多 是 白色 (白色 背景 )， 反 转 它 

return white < black ? binaryImage : ~blInaryImade ; 


使 用 一 个 阅 值 的 binarize 函 数 ， 与 第 4 章 的 类 似 。 然 而 ， 在 这 里 遂 数 的 第 四 个 参数 是 THRESH_OTSU， 即 使 用 大 津 法 
(Otsu) 。 


大 津 法 最 大 化 类 间 方 才 。 靖 值 只 创建 两 个 类 (黑色 像素 和 日 色 像 素 ) ， 这 和 尽量 减少 类 内 方 郑 是 相同 的 。 这 一 方法 使 用 了 图 
像 直方 图 。 然 后 志 历 所 有 可 能 的 国 值 ， 在 背景 中 或 企图 像 的 前 景 像素 中 ， 计 算 国 值 两 侧 像素 值 差 值 学 围 。 目 的 是 找到 使 几 个 差 值 
和 最 小 处 的 国 全 。 


国 值 化 完成 后 ， 函 数 将 计算 图 像 中 日 色 像 素 的 数目 。 黑 色 像 素数 等 于 图 像 中 的 像素 总 数 减 去 日 色 像 素 总 数 。 


由 于 文本 通 弟 是 写 在 一 个 纯色 的 背景 下 ， 我 们 会 检查 是 否 有 更 多 的 不 是 黑色 像素 的 日 色 像素 。 在 本 例 下 ， 是 在 一 个 日 色 背 景 
上 处 理 黑色 文本 ， 因 此 需要 将 图 像 反 转 处 理 。 


停车 票 图 像 的 国 值 处 理 结果 显示 如 下 : 
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下 一 步 是 找到 文本 所 在 的 位 置 并 提取 它 。 有 两 种 常用 的 方法 来 做 到 这 一 点 ， 如 下 : 


AWA/ 


使 用 连通 分 量 分 析 ， 搜 索 图 像 组 的 连接 像素 。 这 也 是 本 章 使 用 的 技术 。 


如 


使 用 分 类 器 来 搜索 先前 熟知 的 字母 纹理 图 案 。 


例如 Haralick 特 征 和 小 波 变 换 这 些 纹理 特征 经 常 被 使 用 。 另 一 方法 是 在 这 个 任务 中 找 出 最 大 稳定 极 值 区 域 (MSER) 。 在 复 
杂 背 景 ， 这 种 方法 更 健壮 ， 下 一 章 将 具体 介绍 。 你 可 以 在 | ttp://h aralick.or g/) ournals/TexturalFeatures.pdf 上 阅读 有 关 
Haralick 功 能 的 更 多 信息 。 
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如 果 仔 细 看 一 下 图 像 ， 你 会 注意 到 ， 这 些 字母 通常 由 一 块 块 文 本 段落 组 合 在 一 起 。 那 么 ， 我 们 如 何 检测 和 删除 这 些 块 ? 
第 一 步 是 使 这 些 块 更 加 明显 。 我 们 可 以 用 膨胀 形态 学 运算 实现 。 在 第 8 章 ， 我 们 学 会 了 如 何 使 用 膨胀 使 图 像 元 素 加 粗 。 接 下 
来 看 看 以 下 代码 片段 : 


Mat kernel = getSstructuringElement (MORPH CROSS, Size (3,3)); 
Mat dilated.; 


dilatel(linnut, dlilated, Kernel, CvsPomt(l=1 11). 5) 
imshow ("Dilated", dilated); 


在 这 段 代码 中 ， 首 先 创建 了 一 个 用 于 形态 学 操作 的 3x 3 交叉 内 核 。 然 后 ， 以 这 个 内 核 为 中 心 膨 胀 倍 。 确 切 的 内 核 的 大 小 和 
次 数 根据 情况 而 改变 。 只 要 确保 这 一 值 能 把 所 有 的 字母 都 粘 在 一 起 即 可 。 


这 个 操作 的 结果 如 下 : 


请 注意 ， 现 在 我 们 有 巨大 的 日 色 块 。 它 们 与 每 一 段 文 字 相 匹配 ， 也 与 其 他 非 文 本 元 素 如 图 像 或 边界 噪声 等 匹配 。 


忆 这 张 停车 票 分 辨 率 很 低 。OCR 引 擎 通常 使 用 高 分 辨 率 的 图 像 (200 或 300dpi) ， 所 以 它 可 能 需要 膨胀 五 倍 以 上 。 


下 一 步 是 执行 连接 组 件 分 析 ， 以 查找 对 应 于 段 藻 的 块 。OpenCV 中 的 findContours 水 数 可 以 做 到 这 一 点 ， 在 第 5 草 中 曾 用 到 


Vector<Vvector<Polnt> > contours.; 
findContours (dilated, contours, RETR EXTERNAL, CHAIN APPROX SIMPDE) ; 


第 一 个 参数 传递 膨胀 后 的 图 像 。 第 二 个 参数 用 于 检测 轮廓 向 量 。 然 后 使 用 可 选项 检索 外 部 轮廓 ， 并 使 用 简单 近似 。 图 像 轮 请 
如 下 图 所 示 。 其 中 每 个 深 色 代 表 一 个 不 同 的 轮廓 : 


| Contours = 口 站 


“med 


最 后 一 步 是 确定 每 个 轮廓 的 最 小 边界 旋转 矩形 。OpencCyV 为 这 种 操作 提供 了 一 个 方便 的 为数 ， 它 叫 作 minAreaRect。 
国 数 接收 任意 点 的 向 量 ， 并 返回 一 个 包含 边框 的 RoundedRect 值 。 


这 也 是 一 个 丢 径 不 必要 的 丰 形 的 好 机 会 ， 也 融 是 况 ， 算 形 显 然 不 是 文本 。 由 于 正在 构建 的 是 天 于 OCR 的 软件 ， 可 以 假定 文 
本 中 包含 一 组 字母 。 有 了 这 个 假设 ， 可 在 以 下 情况 下 丢 茎 文本 : 


“ 矩形 的 宽度 或 尺寸 太 小 ， 即 小 于 20 像 素 。 这 将 有 助 于 放弃 边界 嗓 声 等 小 器 物 。 
宽度 /高 度 比 小 于 2 的 珑 形 图 像 。 即 类 似 于 正方 形 ， 诸 如 图 像 图 标 ， 或 那些 过 高 过 大 的 短 形 也 将 被 丢弃 。 


针对 第 二 个 状态 有 一 点 附加 说 明 。 因 为 我 们 正在 处 理 旋转 边界 框 ， 所 以 必须 检查 边框 角度 是 否 不 小 于 45 度 。 如 果 是 这 样 ， 
文本 将 垂直 旋转 ， 因 此 必须 考虑 的 比例 是 高 度 / 金 度 。 接 下 来 看 看 下 面 的 代码 : 


// 对 于 每 个 轮廓 
Vector<RotatedadRect> areasS ; 
for {auto. Contour : contours) 
人 

// 找 到 它 的 旋转 矩形 


auto box = minAreaRect (contour); 


/ /丢弃 非常 小 的 矩形 
if (box.size.width < 20 || box.size.height < 20) 
continue; 


/ /丢弃 正方 形 和 那些 过 高 过 大 的 矩形 

double proportion = box.angle < -45.0 ? 
box.size.height / box.size.width 
box.size.width / box.size.height; 

if (proportion 和 2) 
continue,; 

// 添 加 矩形 


areas.push back (box) ; 


由 这 一 算法 选择 的 框 如 下 图 所 示 : 
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这 当然 是 一 个 好 结果 ! 


注意 ， 使 用 条 件 2 中 所 搬 述 的 算法 也 会 使 单个 字母 被 丢人 草 。 这 不 是 一 个 大 问题 ， 因 为 我 们 正在 创造 一 个 OCR 预 处 理 器 ， 单 符 
号 通常 对 于 上 下 文 信息 意义 不 大 (如 页 号 ) ， 它 们 将 在 这 个 过 程 中 被 丢弃 ， 因 为 页 号 通常 出 现在 页 面 的 底部 ， 一 定 会 因为 尺寸 过 
小 或 比例 过 小 煞 丢 和 寞 。 然 而 ， 这 不 会 成 为 一 个 问题 ， 因 为 文本 通过 OCR 后 ， 会 出 现 一 个 没有 页 面 分 割 的， 巨大 文本 文件 。 


下 面 的 代码 将 放 入 遂 数 中 : 


vector<RotatedRect> findTextAreas (Mat input) 


现在 ,需要 做 的 是 提取 文本 和 调整 文本 倾斜 。 这 将 由 deskewAndCrop 水 数 完成 ， 具 体 如 下 所 示 : 


Mat deskewAndCrop (Mat input, const RotatedRect& box) 


{ 


double angle = box.angle; 
Size2f size = box.size,; 


/ /调整 框 角 
if (angle < -45.0) 


人 


angle += 90.0; 
std::swap(lsize.width, size.height).,; 


} 


/ /根据 角度 旋转 文本 

Mat transform = getRotationMatrix2D (box.center, angle, 1.0);， 

Mat rotated; 

warpAffine (input, rotated, transform, input .size(), INTER CUBIC) ; 


Mat cropped; 

getRectSubPix (rotated, size, box.center, cropped)., 

copyMakeBorder (cropped, cropped,10,10,10,10,BORDER CONSTANT, 
Scalar (0)).; 

return cropped.; 


首先 ， 读 取 预 期 的 区 域 、 角 度 和 大 小 。 如 前 所 述 ， 这 个 角度 可 以 小 于 45 度 。 这 总 味 着 文本 是 素 直 对 齐 的 ， 所 以 需要 增加 90 
度 的 旋转 角度 ， 交 换 壳 度 和 高 度 属性 。 


接 下 来 ， 需 要 旋转 文本 。 首 先 ， 创 建 一 个 描述 旋转 的 二 维 仿 射 变换 矩阵 。 这 里 使 用 的 是 OpenCV 的 getRotationMatrix2D 陋 
数 。 这 个 函数 需要 以 下 三 个 参数 : 


-CENTER: 这 是 旋转 的 中 心 位 置 。 旋 转 将 围绕 这 个 中 心 。 在 本 例 中 ， 使 用 框 中 心 。 
“ ANGLE: 这 是 旋转 角度 。 如 果 角 度 ， 将 发 生 在 顺 时 针 方向 的 转动 。 
` SCALE: 这 是 一 个 比例 因子 (x、y 方 向 保持 一 致 ) 。 这 里 使 用 1.0， 因 为 希望 保持 框 的 原始 比例 不 变 。 
旋转 本 身 使 用 warpAffine 函 数 进 行 。 这 个 函数 有 四 个 必 传 参数 ， 这 些 参数 如 下 : 
` SRC: 需要 转换 的 输入 mat 数 组 。 
 DST: 输出 mat 数 组 。 


: M: 这 是 一 个 转换 和 矩阵。 这 个 矩阵 是 一 个 2X3 的 仿 射 变换 矩阵 。 这 可 能 是 一 个 平移 、 缩 放 或 旋转 手 阵 。 在 本 例 中 ， 只 使 用 
创建 的 矩阵 。 


“SIZE: 这 是 输出 图 像 的 大 小 。 生 成 一 个 与 输入 图 像 相同 大 小 的 图 像 。 
其 他 三 个 可 选 参数 如 下 : 


. FLAGS: 用 来 说 明 图 像 应 该 如 何 插值 。 这 里 用 BICUBIC _INTERPOLATION 质 量 更 好 。 默 认 值 是 


LINEAR_INTERPOLATION。 
-BORDER: 这 是 边界 模式 。 这 里 使 用 默认 的 BORDER_CONSTANT。 


.BORDER VALUE: 这 是 边界 的 颜色 。 这 里 使 用 默认 值 黑 色 。 


然后 使 用 getRectSubPix 消 数 。 当 旋转 图 像 时 ， 需 要 裁剪 粉 形 区 域 的 边界 框 。 这 个 


并 且 返 回 裁剪 图 像 : 
` IMAGE: 这 是 要 裁剪 的 图 像 。 
SIZE: 这 是 一 个 cv: : Size 对 轨 ， 描 述 


- CENTER: 这 是 要 裁剪 像素 区 域 的 中 心 。 


. PATCH: 这 是 输出 图 像 。 


函数 需要 四 个 必 传 参数 和 一 个 可 选 参数 ， 


了 被 裁剪 框 的 宽度 和 高 度 。 


注意 ， 当 我 们 围绕 中 心 旋转 时 ， 这 一 点 是 不 变 的 。 


. PATCH_TYPE: 这 是 输出 图 像 的 深度 。 我 们 使 用 默认 值 ， 表 示 与 输入 图 像 相同 的 深度 。 


| _ 上 四 
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本 的 边界 。 消 数 入 参 非 弟 简 单 : 输入 和 和 输出 图 像 ， 顶 部 


使 用 卡片 图 像样 式 ， 将 生成 下 图 : 
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[9 Cropped text 


由 copyMakeBorder 国 数 完成 的 。 这 个 函数 增加 了 图 像 的 边界 。 


是 很 重要 的 ， 因 为 分 类 场景 通常 希望 围绕 文 


边缘 的 厚度 ， 底 部 、 元 、 石 的 图 像 ， 以 及 新 边界 的 颜色 。 


|] Cropped text 一 国 人 


Nocaso de dano ou extravio deste cartao, 
comunigque-se imediatamente com a 
administracao do estacionamento, sendo 
necessano comprovar a propriedade do 
veiculo e 0 pagamento de R$ 20,00 
referente a um novo Ocartao. 


| [Ny Cropped text 


| Nossa responsabitidade nao abrange 
| objetos ou pertences deixados no interior | 


do veiculo, assim Como eventuals | 


quebras e/ou defeitos mecanicos, ja due | 


por tazBes Opearacionais nossos) 
funcionNéArios egstaco imposslbilitados de 


| verificar tals itens. 


现在 ， 是 时 候 把 每 一 个 功能 组 合 在 一 起 了 。 下 面 展 示 了 一 些 将 执行 以 下 操作 的 主要 方法 : 


" 加 载 票 图 像 


. 调用 binatization 马 数 


` 查找 所 有 文本 区 域 


` 在 窗口 中 显示 每 个 区 域 : 


int main(int argc, char* argv[]) 

{ 
// 加载 图 像 和 图 像 二 值 化 
Mat 七 ICKet = blnarlze(1lImread ("ticket .pnga" ) ) ; 
auto regions = findTextAreas (LICket) ; 


// 每 一 个 区 域 
for (auto& region : regions) { 
/ /裁剪 
auto cropped = deskewAndCrop (ticket, region),; 
// 显 示 
lmshow ("Cropped text", cropped).,， 
waltKey(0),; 
destroyWindow ("Border SKew' ) ; 


NS 完整 的 源 代 码 参见 segment.cpp 区 人 


10.3 ”在 你 的 操作 系统 上 安 狂 Tesseract OCR 


Tesseract 最 初 是 由 惠普 实验 室 、 布 里 斯 托 尔 和 惠普 公司 共同 开发 的 一 款 开源 的 OCR 引 | 掌 。 它 具有 Apache 许 可 证 下 的 所 有 
代码 的 许可 证 ， 并 托管 在 Github 网 站 的 https://github.com/tesseract-ocr。 


它 是 最 准确 的 可 用 OCR3 引 | 擎 之 一 。 它 可 以 读 取 多 种 图 像 格 式 ， 并 可 以 将 文本 转换 成 60 多 种 语言 的 文字 。 


本 节 将 教 你 如 何在 Windows 或 Mac 上 安 半 Tesseract。 由 于 有 很 多 Linux 的 友 行 版 ， 改 本 书 不 再 介绍 如 何 将 其 安装 企 Linux 
本 


通 单 ，Tesseract 封 闭 库 提供 了 安 凌 包 ， 所 以 在 编译 Tesseract 表 搜 搜 看 。 


10.3.1 在 Windows 上 安装 的 Tesseract 

里 然 Tesseract 托 管 在 GitHub 上 ， 其 最 新 的 Windows 安 装 程序 仍然 可 以 在 老 的 谷歌 代码 中 获取 。 最 新 的 安装 程序 版 本 为 
3.02.02， 建 议 你 从 https://code.google.com/p/tesseract-ocr/downloads/list 下 载 安装 程序 。 

下 载 了 安 丢 程序 后 ， 执 行 以 下 步骤 : 


1. 查 找 tesseract-ocr-setup-3.02.02.exe 和 tesseract-3.02.02-win32-lib-include-dirs.zip 文 件 ， 下 载 并 运行 可 执行 安装 程 
序 。 


伪 Downloads - tesseract-oci x 


a > i 及 - EE 和 CPPESEC Be he hh > 和 


rr v | My favorites Y | Profile | Sign out < 


An al Ee that was developed at HP Labs between 1985 and 1995... and now at 


se tesseract-ocr 


ee 


prject Home | Dowrioads | Wi lssues Souce [Exportio Gb] 
READ-ONLY: This project has been archived. For more information see this post. 


Search [Curentoowioans vfor 


1- 100 of 149 Next， 


Filenamev JSummary+Labelsy iUploadedv ReleaseDate vy Sizev DownloadCountv … 
[| tesseract-ocr-3.02.grc tar.gz Ancient Greek Language data for Apr 2013 Apr 2013 3.3 MB 75951 
Tesseract 3.02.02 


[| tesseractocr3.02.epo_alttargz Esperanto altemative language data Nov 2012 Nov 2012 16674 
for Tesseract 3.02 


[| tesseract-3.02.02-win32-lib-include-dirs zip VC++ libraries of Tesseract OCR Nov 2012 Nov 2012 : 131374 
3.02.02 (32bit) Festured 


[| tesseract-ocr-setup-3.02.02.exe Windows installer of tesseract-ocr © Nov2012 Nov 2012 
3.02.02 (including English language 
data) Featured 


oP [| tesseract-ocr-3.02.02.tar.gz Tesseract OCR 3.02.02 Source 


Featured 


2. 在 欢迎 页 面 ， 阅 读 并 接受 许可 协议 。 
3. 选 择 为 计算 机 上 的 所 有 用 户 安 装 或 只 为 自己 的 用 户 安装 。 
4. 选 择 适合 的 安装 位 置 。 


3. 选择 安 窟 文件 夹 。Tesseract 默 认 指 向 系统 程序 文件 来， 因为 它 有 一 个 命令 行 界面 。 如 有 需要 ， 可 以 将 它 改 到 一 个 更 合适 
的 文件 夹 。 然 后 ， 去 下 一 页 : 


但 Tesseract-OCR 3.02.02 


Choose LompoOrmerts 


Choose whid features ofTesseract-OCR 3 了 02.02 for Windows 
YOU Want to install, 


Ched: the components you want to install and undthed: the components You don't want to 
install. Click Next to continue. 


Select components tn install: 


Space required: 56.3MB Position YOUr mouse Ower a component to see is 
description, 


(cy 2010-2012 Tesseract-OCR 


6. 确 保 选中 “Tesseract development files”。 这 将 安装 Leptonica 库 文件 和 源 代码 。 你 还 可 以 将 语言 设置 为 母语 。 
Tesseract 默 认 选 择 英 语 。 


7. 安 装 程序 会 下 载 并 设置 Tesseract 依 赖 关 系 。 


这 更 测 斌 Tessetact 的 安装 情况 ， 可 以 通过 命令 行 运 行 它 。 例 如 ， 要 对 patkingTicket,png 文 件 运 行 Tessefact， 可 以 运行 下 面 的 命 


他 


tesseract parkingTicket .png 七 ICKet .七 Xt 


8. 返 回 下 载 的 tesseract-3.02.02-win32-libinclude-dirs.zip 文 件 ， 解 压 文 件 ， 并 将 lib 和 add 文 件 夹 复制 到 tesseract 的 安装 文 
件 中 。 这 里 会 有 同名 文件 来， 但 是 这 很 正常 。 这 个 文件 将 包含 安装 Tesseract 的 tesseract 文 件 和 库 。 让 位 笑 不 得 的 
是 ，Tesseract 的 安装 程序 没有 libs 丰 dlls。 


人 在 Visual Studio 中 设置 Tesseract 


由 于 Visual Studio 2010 是 Tesseract 为 Windows 开 发 者 推荐 的 IDE， 所 以 这 个 设置 的 正确 性 非常 重要 。 


设置 过 程 很 简单 ， 它 分 为 以 下 三 个 步骤 : 
调整 引用 和 库 路 径 。 


2. 将 库 添 加 到 链接 器 输入 。 


3. 在 Windows path 中 添加 Tesseract dlls 路 径 


在 下 面 的 章节 中 看 看 每 一 个 步骤 。 
设置 引用 和 库 路 径 


引用 路 径 告诉 Visual Studio 在 哪里 搜索 .h 文 件 ， 使 代码 中 的 #include 指 令 可 用 。 在 解决 方案 管理 器 (solution explorer) 
内 ， 右 键 单 击 你 的 工程 ， 并 单 击 属 性 (properties) 。 然 后 选择 配置 属性 (configuration properties) ， 再 选择 VC++ 目 录 


(VC++DIirectorles) 。 


KW 果 你 从 头 开 始 创 建 一 个 新 的 项 目 ， 确 保 你 添加 至 少 一 个 C++ 文件 项 目 ， 让 Visual 知 道 这 是 一 个 C++ 项 目 。 


下 一 步 ， 上 点击 包括 目录 (Include Directories) 。 出 现 箭头 ， 点 击 这 个 箭头 ， 然 后 点 击 Edit (编辑 ) : 


segment Property Pages ? 人 


Configuratior: IActive(Debug) ~| Debug) : v| Platform: Activewin 3 ive Win32) ed | Configuration Manager... | Manager... 
| 


» Common Properties General 

w Configuration Properties Executable Directories $VCInstallDirbin SWindowsSDK_ ExecutablePath x86):$(VSInstallDi 
General Include Directories ~:\Projetos\libs\Tesseract-OCR\include\leptonica:$(IncludePath)[w 
Debugging Reference Directories <Edit,..> z i 
VC++ Directories Library Directories TYPTOTerOsVITDSVTESSETHCCCCFVTOUCTIOTHTYPT 

LT Library WinRT Directories $(WindowsSDK_MetadataPath) 

Lnker Source Directories $VCInstallDiNatImfo\srAmfc$(VCInstallDinNatImfAsrAmfcm:$(VCI 


Manifest Tool Pe $VCInstallDininclude.$(VCInstallDinatimfo\include$(WindowsSDK 
ML Document Generator 


Browse Information 
Build Events 
Custom Build Step 
Code Analysis 


本 
四 
办 
~ 
办 
本 


Inchde DMirectornies 


Path to use when searching for include files while building a VC++ project. Corresponds to environment variable 
INCLUDE. 


你 必须 添加 两 个 目录 到 这 个 列表 : 


TeSsSsezractInStalL1LPath\includae 
TesseractInstallPath\include\leptonica 


将 TesseractlnstallPath 鞭 换 为 你 的 Tesseract 安 半路 径 ， 例 如 : c: \Program Files\Tesseract-OCR。 


然后 ， 点 击 库 目 录 (Library Directories) ， 点 击 租 头 ， 然 后 点 击 编辑 (Edit) ， 融 如 操作 包括 目录 (Include 
Directories) 那样 。 必 须 将 一 个 目录 添加 到 列表 中 : 


TesseractInstallPath\lib 


在 属性 页 ， 进 入 链接 器 | 输入 (LinkerlInput) 。 编 辑 附 加 依赖 (Additional Dependencies) 行 并 包含 以 下 两 个 库 : 


liblept168.11ib 
libtesseract302.11b 


ee 
Ce < 


一 由 于 在 lib 内 的 数字 指 的 是 文件 版 本 ， 如 果 你 安装 了 不 同 版 本 的 Tesseract， 库 名 称 可 能 改变 。 为 此 ， 只 需 打 开 Windows 资 
源 管理 器 的 lib 路 径 。 


不 件 的 是 ， 调 试 库 ( 即 带 有 一 个 d 字 母 结 尾 的 那些 ) 在 Tesseract 范 围 之 外 没 作用 。 如 果 你 真 的 需要 使 用 它们 ， 你 日 己 编 


译 Tesseract 和 和 Leptonica。 


在 Windows 路 径 中 添加 库 路 径 


你 必须 将 两 个 库 文 件 路 径 添加 到 Windows 路 径 中 。 第 一 个 位 于 TesseractlnstallPath ， 被 称 为 liblept168.dll。 第 二 个 位 于 
TesseractlnstallPathNlib， 叫 作 libtesseract302.dll。 有 两 种 方法 可 以 做 到 这 一 
. 将 这 些 文 件 复 制 到 Visual Studio 生 成 可 执行 文件 处 。 这 样 就 不 用 将 文件 添加 到 Windows 路 径 ， 但 将 允许 应 用 程序 运行 


[@) 


` 将 这 些 文件 复制 到 在 Windows 路 径 配 置 的 文件 夹 内 。 通 过 改变 系统 属性 (System Propetrties) 中 的 环境 变量 ， 可 以 在 
Windows 路 径 中 配置 一 个 新 文件 夹 。 


避 一 此 网络 络 教程 教 你 把 这 些 文件 放 在 文件 夹 中 ， 如 WindowsNSystem32 下 。 不 要 这 样 做 。 如 果 你 这 样 做 ， 可 能 在 将 来 很 难 改 
变 库 版 本 ， 因 为 这 个 文件 夹 中 有 很 多 其 他 的 ds 系统， 并 且 你 可 能 会 忘记 你 放 在 了 这 里 。 另 外 ， 你 可 以 禁用 自 定 义 路 径 来 测试 安 
装 和 检查 你 是 否 忘 记 打 包 dll 的 安装 包 


10.3.2 在 Mac 上 安装 Tesseract 


在 Mac 上 安装 Tesseract OCR 最 简单 的 方法 是 使 用 Homebrew。 如 果 你 没有 安装 Homebrew 软 件 ， 只 需 进 入 Homebrew 网 
站 (http://brew.sh/) ， 打 开 控 制 台 ， 并 运行 在 头 版 的 Ruby 脚 本 ， 你 可 能 需要 输入 管理 员 密 码 。 


安 闻 Homebrew 软 件 后 ， 只 需 输入 以 下 命令 : 
brew install tesseract 
英语 已 经 包含 在 这 个 安 久 包 内 。 如 果 你 想 安装 其 他 语言 包 ， 只 需 运 行 下 面 的 命令 : 


brew install tesseract --all-languages 


这 将 安装 所 有 语言 包 。 然 后 ， 去 Tesseract 安 装 上 有 目录， 删除 所 有 不 想 要 的 语言 。Homebrew 通 常 将 它们 安装 在 /usr/local/。 


10.4 使 用 Tesseract OCR 库 


虽然 Tesseract OCR 已 经 集成 到 OpenCV 3.0 中 了 ， 但 是 研究 它 的 API 仍 然 是 值得 的 ， 因 为 它 人 允许 通过 Tesseract 参 数 实现 细 
粒度 的 控制 。 整 合 将 在 下 一 章 中 进行 研究 


创建 OCR 函数 


下 面 使 用 Tesseract 更 改 上 面 的 例子 ， 首 先 将 baseapi 和 fstream tesseracts 添 加 到 列表 : 


#include <opencv2/opencv.hpp> 
#include <tesseract/baseapi.h> 


#include <vector> 
#include <fstream> 


然后 ， 将 创建 一 个 代表 Tesseract OCR5 


警 的 全 局 变量 TessBaseAPI 对 象 : 


tesseract::TessBaseAPl OCcCL:; 
忆 这 个 OCR 引 学 是 完全 独立 的 。 如 果 需 要 创建 多 线程 的 OCR 软件 ， 只 需 为 每 个 线程 对 象 添 加 一 个 不 同 的 TessBaseAPI， 并 且 


是 线程 安全 的 。 你 只 需要 保证 文件 写 入 不 是 在 同一 个 文件 完成 的 ; 否则 ， 你 需要 为 这 一 操作 提供 安全 保障 。 
下 一 步 ， 将 创建 一 个 identify 函 数 调用 OCR 识别 文字 : 


char* identifyText (Mat input, char* language = "eng") 
人 


ocr.Init (NULL, language, tesseract::OEM TESSERACT ONLY) ; 
ocr .SetPageSegMode (tesseract::PSM SINGLE BLOCK) ; 


ocr.SetImage (input .data, input.cols, input.rows, 1, 
input .step),; 


char* text = ocr.GetUTF8Text () ; 
COUEt <e "Text:" << endl; 
Cout << text << endl; 


cout << "Confidence: " << ocr.MeanTextConf () << endl] << endl.; 


// 获取 文本 


return 七 eXt ; 


接 下 来 逐 行 解释 这 个 函数 。 在 第 一 行 ， 初 始 化 Tesseract， 通 过 调用 init 函 数 完成 。 这 个 函数 声明 如 下 : 


int Init (const char* datapath, const char* language, 
OcrEngineMode oem) 


: Datapath: 这 是 tessdata 文 件 在 根 目 录 下 的 路 径 。 这 个 路 径 必须 以 反 和 斜 杠 / 字 符 结 来 。 这 个 tessdata 目 录 包 含 已 安装 的 语言 文 
件 。 传 递 NULL 参 数 ， 通 常会 让 Tessetact 在 其 安装 目录 内 搜索 ， 因 为 语言 文件 通常 存放 在 这 个 文件 夹 中 。 在 部 署 应 用 程序 并 且 将 
tessdata 包 含 在 自己 的 工程 路 径 时 ， 修 改 这 个 值 为 atgs[0] 是 很 常见 的 。 


. Language: 这 是 一 个 用 三 个 字母 单词 代表 的 语言 代码 (如 eng 代 表 英 语 ，pot 代 表 葡 萄 牙 ，hin 代 表 印 度 语 ) 。Tessetact 支 持 
使 用 + 符号 来 加 载 多 语言 代码 。 因 此 ，eng+por 将 加 载 英 语 和 葡萄 牙 语 。 当 然 ， 只 可 以 使 用 先前 安装 过 的 语言 否则， 加 载 将 失 
败 。 语 言 配 置 文件 必须 指定 两 种 或 更 多 语言 一 起 加 载 。 为 了 防止 这 种 情况 ， 你 可 以 使 用 一 个 波浪 号 ~。 例 如 ， 可 以 使 用 hin+~eng 
保证 英语 被 加 载 ， 而 印度 语 没 有 ， 即 使 它 被 配置 为 那样 。 


. OctEngineMode: 这 些 将 用 于 OCR 算法 。 它 们 可 以 是 以 下 值 之 一 : 


. OEM_TESSERACT_ONLY: 仅 使 用 Tessetact。 它 是 最 快 的 方法 ， 但 它 的 精度 比较 低 。 


“ OEM_CUBF_ONLY: 使 用 Cube 引 擎 。 它 比较 慢 ， 但 更 精确 。 仅 在 语言 支持 这 个 引擎 模式 时 工作 。 要 检查 是 否 支持 ， 可 
在 tessdata 文 件 夹 中 查看 .cube 文 件 。 保 证 是 支持 英语 的 。 


. OEM_TESSERACT_CUBE_COMBINED: 结合 了 Tessetact 和 Cube， 以 达到 最 佳 的 OCR 分 类 。 这 一 引擎 具有 最 佳 的 精度 


和 最 慢 的 执行 时 间 。 


. OEM_DEFAULT: 基于 语言 配置 文件 和 命令 行 配置 文件 推测 策略 ， 在 双方 策略 都 没有 时 ， 使 用 
OEM_TESSERACT _ ONLY。 


需要 强调 的 是 init 国 数 可 以 被 多 次 执行 。 如 果 提 供 不 同 的 语言 或 引擎 模式 ，Tesseract 将 清除 以 前 的 配置 ， 并 重新 开始 。 如 果 
提供 相同 的 参数 ，Tesseract 是 足够 聪明 的 ， 可 以 简单 地 忽略 命令 。init 国 数 返 回 0 表示 成 功 ，-1 表 示 失 败 。 


然后 设置 页 面 分 割 方式 : 


Ocr.SetPageSegMode (tesseract::PSM SINGLE BLOCK/) ; 


有 几 个 可 用 的 分 割 模式 ， 如 下 所 示 : 
. PSM_OSD_ONLY: 使 用 这 个 模式 ，Tessetact 只 是 运行 它 的 预 处 理 算 法 来 探测 文本 和 文本 方向 。 
. PSM_AUTO_OSD: 告诉 Tessetact 根 据 文 本 和 文本 方向 自动 执行 页 面 分 割 。 
-PSM_AUTO_ONLY: 执行 页 面 分 割 ， 但 避免 做 方向 检测 、 文 本 检测 ， 或 OCR。 
. PSM_AUTO: 做 页 面 分 割 和 OCR， 但 避免 做 排列 方向 或 文本 检测 。 
* PSM_SINGLE_COLUMN: 这 假设 大 小 可 变 的 文本 显示 在 一 个 单独 的 列 中 。 
PSM_SINGLE_BLOCK_VERT TEXT: 这 会 将 图 像 作 为 一 个 文本 垂直 对 齐 的 统一 的 模块 。 
: PSM_SINGLE_BLOCK: 一 个 单一 的 文本 块 。 这 是 默认 配置 。 可 以 使 用 这 个 标志 ， 因 为 我 们 的 预 处理 阶 段 是 这 种 情况 。 


. PSM_SINGLE_LINE: 这 说 明 图 像 只 包含 一 行文 本 。 


. PSM_SINGLE_ WORD: 这 表明 图 像 只 包含 一 个 字 。 
. PSM_SINGLE_WORD_CIRCLE: 这 表明 图 像 只 是 一 个 字 ， 也 有 可 能 是 个 圆圈 。 
. PSM_SINGLE_CHAR: 这 表明 图 像 中 包含 一 个 字符 。 


注意 ， 正 如 大 多 数 OCR 库 那样 ，Tesseract 已 经 实施 了 倾斜 校正 (deskewing) 和 文字 分 割 算法 。 让 人 兴奋 的 是 ， 知 道 了 这 
样 的 算法 ， 束 可 以 根据 特定 需求 准备 自己 的 预 处 理 阶 段 。 这 使 得 可 以 在 许多 情况 下 改善 文字 检测 。 例 如 ， 你 正在 为 旧 文 档 创 建 
OCR 应 用 程序 ， 通 过 使 用 Tesseract 的 默认 闪 值 ， 可 以 创建 一 个 黑 蜡 的 背景 。Tesseract 对 于 边界 或 者 严重 的 文本 扭曲 也 会 感到 团 
二 六 


7 No 


接 下 来 ， 调 用 SetlImage 方 法 : 


Vold SetIimage (const unsigned char* imagedata, int width, 
int height, int bytes Per pixel, int bytes per line); 


参数 几乎 不 言 自明 ， 其 中 大 部 分 可 以 直接 从 我 们 的 mat 对 象 处 查看 : 


data: 这 是 一 个 原始 字 节 数组 ， 其 中 包含 了 图 像 数 据 。OpenCV 在 Mat 类 中 含有 一 个 叫 作 data() 的 测 数 ， 它 提供 了 一 个 直 
接 指向 数据 的 功能 。 


Width: 这 是 图 像 宽 度 。 
. height: 这 是 图 像 高 度 。 


. bytes_per_pixel: 这 是 每 个 像素 的 字 节 数 。 我 们 使 用 1， 因 为 正在 处 理 一 个 二 进 制图 像 。 如 果 想 让 代码 更 通用 ， 还 可 以 使 用 


Mat: : elemSize () 函数 ， 它 提供 了 相同 的 信息 。 
bytes_pet_ line: 这 是 一 行 中 的 字 节 数 。 使 用 Mat: : Step 属性， 因为 一 些 图 像 添 加 了 尾随 字 节 。 


然后 ， 调 用 GetUTF8Text 运 行 上 自身 识别 。 识 别 的 文本 被 返回 ， 没 有 用 BOM (byte order mark) 用 的 是 UTF-8 编 码 。 在 返 
回 之 前 还 打印 了 一 些 调试 信息 。 


MeanTextConf 返 回 了 一 个 信心 指数 ， 它 可 以 是 从 0 到 100 的 数字 : 


char* text = ocr.GetUTF8Text ( ) ; 

So EE MTenter we Bnd 

Sout ee ext a GhdLs 

COout << "Confidence: " << ocr.MeanTextConf () << endl] << endl ，; 


将 输出 发 送 到 文件 
修改 main 方 法 ， 将 识别 出 的 文本 输出 到 一 个 文件 中 。 使 用 的 是 标准 的 ofstream : 


int main(int argc, char* argvV[] ) 


{ 
/ /加载 票 的 图 像 并 进行 图 像 二 值 化 
Mat ticket = binarize (imread ("ticket .png")); 
auto regions = findTextAreas (七 ICKet) ; 


std: :ofstream file; 
file ODem("Ltioket Ext stdi 0B: 0ut | sta::108: :Dinaryv):; 


// 每 一 个 区 域 


for (auto region : regions) { 
/ /修剪 


auto cropped = deskewAndCrop (ticket, region),， 
char* text = lidentifyText (cropped, "por"),; 


file.write (text, strlen (七 eXt) ) ; 
file << _ endal; 


flLle.ClLlose() ; 


file.open("ticket.txt", std::ios::out | std::ios::binary) ; 


在 二 进 制 模式 下 打开 文件 。 这 很 重要 ， 因 为 Tesseract 返 回 UTF-8 编 码 的 文字 ， 考 虑 到 可 用 的 特殊 字符 的 Unicode。 我 们 还 
用 下 面 的 命令 写 了 一 个 直接 输出 : 


file.write(text, strlen (七 eXt) ) ; 


在 这 个 示例 中 ， 调 用 identify 时 使 用 葡萄 牙 语 作为 输入 语言 (这 张 车 票 用 的 是 这 一 语言 ) 。 如 果 你 喜欢 的 话 ， 也 可 以 用 另 一 
张 照 户 。 


一 
-& 《 


一 整个 源 文件 在 segmentoct.cpp 文 件 中 。 


Sticketpng 是 一 个 低 分 辨 率 图 像 ， 我 们 猜想 你 可 能 在 学 习 这 块 代码 的 时 候 ， 想 在 窗口 中 显示 这 个 图 像 。 对 于 这 个 图 像 而 
言 ，Tesseract 的 结果 很 不 理想 。 如 果 你 想 用 更 高 分 辨 率 的 图 像 进行 测试 ， 代 码 中 有 一 个 ticketHigh.png 图 像 。 为 了 测试 这 个 图 像 ， 
改变 膨胀 重复 次 数 到 12， 最 小 框 尺 寸 从 20 到 60。 你 会 得 到 一 个 更 高 的 置信 率 〈 大 概 87%) 并 且 所 得 文本 也 将 完全 可 读 。 


segmentOcrtHigh.cpp 文 件 中 包含 了 这 些 修改 。 


10.5 ”总 给 


在 这 一 草 中 ， 我 们 简单 介绍 了 OCR 应 用 。 可 以 看 到 这 种 系统 的 预 处 理 阶段 必须 根据 计划 识别 的 文件 类 型 进行 调整 。 之 后 学 
习 了 在 预 处 理 文本 文件 时 的 一 些 芝 见 操 作 ， 如 国 值 、 裁 荔 、 倾 斜 和 文本 区 域 分 割 。 最 后 ， 还 学 会 了 如 何 安 半 和 使 用 Tesseract 
OCR 进行 图 像 文 本 识别 。 


在 下 一 章 中， 我 们 将 使 用 更 先进 的 OCR 技术 (被 称 为 场景 文本 识别 ) ， 来 识别 一 个 随便 担 摄 的 照片 或 视频 中 的 文字 。 这 是 
一 个 更 复杂 的 场景 ， 因 为 文字 可 以 在 任何 地 方 ， 以 任何 字体 ， 有 不 同 光 照 和 文本 方向 。 可 能 什么 文字 都 没有 ! 我 们 还 将 学 习 如 何 
使 用 OpenCV 3.0 的 文本 模块 ， 这 个 模块 与 Tesseract 完 全 地 整合 在 了 一 起 。 


第 11 章 ”使 用 Tesseract 识 别 文 本 


上 一 章 介绍 了 OCR 的 基本 处 理 功 能 ， 尽 管 这 些 功 能 在 扫 摘 或 者 担 照 中 十 分 有 用 ， 但 是 它们 对 随意 出 现在 图 像 上 的 文字 却 没 
有 作用 。 


在 本 章 中 ， 我 们 将 探索 专门 处 理 场景 中 文字 的 OpenCV 3.0 文 字 处 理 模块 ， 使 用 这 个 API， 可 以 检测 到 出 现在 网 络 摄像 头 中 
的 视频 文本 或 分 析 担 摄 的 图 像 (如 由 街道 上 那些 监控 摄像 头 拍摄 的 视图 ) 从 而 提取 实时 文本 信息 。 这 样 残 可 以 创建 更 三 泛 使 用 的 
应 用 ， 使 用 在 市 场 甚 至 是 机 器 人 领域 。 


学 完 本 章 你 可 以 回答 出 以 下 几 个 问题 : 


` 什么 是 场景 文字 识别 


. 理解 文本 识别 API 工 作 原 理 
` 使 用 OpenCV 3.0 的 文本 识别 API 检 测 文 本 
` 提取 所 检测 文字 为 图 像 


. 使 用 文本 检测 API 和 集成 Tesseract 识 别 字 怀 


11.1 文本 识别 API 工 作 原 理 


Lukés Neumann 和 Jiri Matas 在 2012 年 CVPR (计算 机 视觉 与 模式 识别 ) 大 会 中 提出 的 “实时 场景 文本 定位 与 识别 ”论文 
中 ， 文 本 识别 API 实 现 了 算法 。 这 个 算法 是 场景 文字 识别 应 用 显著 提升 的 标志 ， 应 用 范围 遍布 各 处 ， 从 CVPR 数 据 库 到 谷歌 街景 
数据 库 。 


在 使 用 这 个 算法 之 前 ， 首 先 来 了 解 这 个 算法 的 工作 原理 和 它 是 如 何 解 决 现场 文字 检测 问题 的 。 


-ee 《 
\ 


一 牢记 OpenCV 3.0 文 字 识 别 API 不 包含 于 OpenCV 的 标准 库 ， 它 是 一 个 拓展 包 ， 参 考 第 1 章 来 安装 这 些 拓展 模块 。 


11.1.1 实时 文字 检测 问题 


检测 随机 出 现在 场景 中 的 文字 ， 比 表面 看 起 来 要 难 。 当 对 比 扫 摘 识别 的 文字 时 ， 会 出 现 新 的 变量 : 


. 三 维 立 体 空 间 : 文本 可 以 以 任何 比例 、 方 向 或 角度 出 现 ， 同 时 ， 文 字 可 能 会 被 部 分 遮盖 或 者 中 断 ， 在 图 像 里 的 文字 可 能 以 
成 千 上 万 种 方式 出 现 。 


. 文字 样式 : 文本 有 几 个 不 同 的 字体 和 颜色 。 字 体 可 以 有 轮 廊 边 界 。 背 景 可 能 阴暗 、 光 亮 或 是 一 个 复杂 的 图 像 。 


光照 和 阴影 : 阳光 的 位 置 随 着 时 间 明 显 变 化 ， 不 同 天 气 条 件 如 筋 和 雨 会 造成 环境 嗓 声 。 在 封闭 空间 光照 都 会 从 彩色 物体 反 


射 到 文字 上 然后 造成 问题 。 
. 模糊 : 文字 有 可 能 显示 在 没有 对 焦 的 区 域 ， 模 糊 也 常常 出 现在 摄像 头 移动 、 透 视 文字 或 者 雾气 场景 中 。 


下 图 是 谷歌 街景 担 报 的 图 像 ， 演 示 了 上 面 的 几 个 问题 ， 注 意 这 些 问 题 是 如 何在 一 张 单一 的 图 像 上 同时 出 现 的 : 


在 这 种 情况 下 执行 文本 检测 被 证 实 开销 巨大 。 设 图 像 的 像素 数 为 hn， 这些 文 字 将 占有 2n 像 素 子 集 。 


通常 运用 下 列 两 个 常用 策略 降低 复杂 性 : 


“ 通过 滑动 窗口 来 搜索 算 形 区 域 的 子 集 ， 这 种 策略 仅仅 是 减少 子 集 到 一 个 较 小 的 数量 。 区 域 的 数量 根据 文本 的 复杂 性 考虑 而 
。 相 比 于 那些 还 要 考 上 处 旋转 、 倾 作 、 透 视 的 情况 ， 仅 仅 只 是 文本 旋转 的 算法 可 以 使 用 较 小 的 值 。 这 种 方法 的 优点 在 于 简单 ， 
但 它 通常 被 限制 在 一 个 窄 的 字体 范围 内 ， 并 且 经 常 是 词典 里 特定 的 单词 。 


. 使 用 连接 组 件 分 析 。 这 种 方法 假设 像素 可 被 分 组 成 具有 类 似 的 性 质 的 区 域 。 这 些 区 域 都 有 更 高 的 可 能 性 被 认定 为 字符 
种 方法 的 优点 在 于 它 不 依赖 于 几 个 文本 属性 (如 方向 、 上 比例 和 字体 ) ， 并 且 它 们 也 提供 了 可 用 于 裁剪 文本 到 OCR 的 一 个 
区 域 。 这 是 在 前 面 草 节 中 使 用 的 方法 。 


。 这 


分 割 的 
OpenCV 3.0 算 法 采用 第 二 种 策略 连接 组 件 分 析 ， 并 搜寻 极 值 区 域 。 


11.1.2 极 值 区 域 

极 值 区 域 是 通过 均匀 强度 和 环绕 的 对 比 度 背 景 特征 识别 的 连接 区 域 。 一 个 区 域 的 稳定 性 可 以 通过 这 个 区 域 立 值 方 笑 来 测量 。 
这 个 方才 可 以 用 简单 的 算法 获得 

1. 应 用 这 个 国 值 生 成 图 像 A， 检 测 它 的 连接 像素 区 域 ( 极 值 区 域 ) 。 

2. 通 过 增加 6 数量 来 提高 阐 值 生成 图 像 B， 检 测 它 的 关联 像素 区 域 ( 极 值 区域 ) 。 


3. 比 较 图 像 A 和 B， 如 果 A 和 B 相 似 ， 把 它们 添加 到 树 的 同一 个 分 支 。 相 似 性 的 标准 可 以 由 执行 的 实现 而 改变 ， 但 是 通常 都 和 
图 像 区 域 或 者 一 般 形状 相关 。 如 果 图 像 A 和 图 像 B 区 别 较 大 ， 在 新 区 域 的 树 里 创建 两 个 分 广 ， 并 将 它们 与 以 前 的 分 文 相 天 联 。 
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4. 设 置 A=B， 并 回 到 步骤 2， 有 直到 使 用 最 大 国 值 。 这 将 集合 成 一 个 树 型 区 域 ， 如 下 图 所 示 : 


ONY 他 [ZIZIZIZIZIZIZIZIZIZIZIZIZIZIYIYSCKO 
ca NINTNINININININININININININININNININNNRNRNRNRSDG 
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[gata 
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(图 像 资 源 地 址 : http://docs.opencv.org/master/da/d56/group__text_ detect.html#gsc.tab=0) 
方 莽 阻力 由 同一 级 别 上 的 节点 数目 来 确定 。 


通过 分 析 这 个 树 也 可 以 确定 MSER (最 大 稳定 极 值 区域 ) ， 也 融 是 针对 各 种 各 样 的 国 值 仍 能 保持 稳定 的 区 域 。 在 上 图 中 ， 很 
明显 这 个 区 域 包 合 字 母 O、N 和 Y。MSER 最 大 的 务 势 在 于 当 模 糊 存 在 时 表现 得 很 不 好 ，OpenCV 的 feature2d 模 块 提 供 了 MSER 
特征 检测 器 。 


极 值 区 域 很 有 趣 ， 因 为 它 对 于 光照 、 缩 放 和 方向 有 着 极 强 的 不 变性 。 对 文本 ， 它 也 是 很 好 的 候选 方案 ， 因 为 即使 对 字体 样式 
而 言 ， 它 也 是 不 变 的 。 每 个 区 域 也 可 以 确定 其 边界 省 略 号 和 国有 属性 ， 例 如 仿 射 变换 ,或 者 可 以 用 数字 确定 区 域 。 最 后 值得 一 提 
的 是 ， 整 体 过 程 非常 快 ， 这 使 得 它 对 于 实时 的 应 用 是 一 个 很 好 的 候选 方案 。 


11.1.3” 极 值 区 域 减 镜 
尽管 MSER 是 常用 的 确定 极 值 区 域 的 方法 ，Neumann 和 Matas 的 算法 可 以 将 所 有 极 什 区 域 提交 到 正在 训练 字符 检测 顺序 的 
分 类 器 中 。 分 类 器 的 运行 原理 有 两 个 不 同 的 场景 ， 如 下 所 示 : 


第 一 个 场景 增加 了 计算 每 个 区 域 描 述 符 (边界 框 、 周 长 、 面 积 和 欧 拉 数 ) 。 这 些 描述 符 被 提交 给 一 个 预 估 这 个 区 域 有 多 大 


可 能 是 字母 表 中 的 一 个 字符 的 分 类 器 。 然 后 只 有 高 概率 的 区 域 会 被 选择 进行 第 2 个 场景 。 


“ 在 这 个 场 最 中 ， 整 个 面积 比率 、 西 面 边缘 的 比例 和 外 边界 拐点 的 数目 被 作为 特征 来 计算 。 这 样 会 提供 一 个 更 详细 的 信息 ， 
并 且 人 允许 分 类 器 丢弃 非 文 本 字符 ， 但 计算 速度 也 慢 得 多 。 


在 OpenCV 中 ， 这 个 过 程 在 ERFilter 类 中 实现 。 另 外 ， 也 可 以 使 用 不 同 的 图 像 单 通道 投影 诸如 R、Q@、B 的 亮度 ， 或 灰 度 级 转 


这 
换 ， 来 增加 字符 识别 率 。 
最 后 所 有 的 字符 必须 以 文本 块 (如 文字 或 段 藻 ) 的 形式 进行 分 组 。OpenCV 3.0 提 供 了 两 种 算法 达成 这 个 目的 : 
“ 修建 穷 举 搜索 ; 这 也 是 Mattas 在 2011 年 提出 的 。 这 个 工法 不 需要 任何 预先 训练 或 分 类 ， 但 只 能 识别 水 平 文本 。 
“ 面向 文本 分 级 方法 : 可 以 处 理 在 任何 方向 的 文本 ， 但 需要 一 个 被 训练 过 的 分 类 器 。 


于 这 些 操作 需要 分 类 器 ， 它 也 有 必要 提供 一 个 训练 有 素 的 组 作为 输入 。OpenCV 3.0 提 供 了 一 些 训 练 过 的 样本 数据 包 。 


省 ， 这 个 算法 在 分 类 器 被 训练 的 对 字体 敏感 。 


这 个 算法 的 演示 在 Neumann 提 供 的 视频 中 可 以 看 到 : https://youtu.be/ejd5gGea2Fo。 


一 旦 文本 被 分 大 ， 之 后 需要 被 友 送 到 OCR， 类 似 于 在 上 一 章 中 提 到 的 Tesseract。 唯 一 的 不 同 是 现在 将 使 用 的 OpenCV 文 本 
模块 类 与 Tesseract 相 互 作 用 ， 因 为 它们 提供 了 正在 使 用 的 特定 OCR5| 党 的 封 沪 。 


11.2 ”使 用 文本 识别 API 


学 习 这 些 理论 已 经 足够 了 。 现 在 是 时 候 看 看 文本 模块 在 实践 中 是 如 何 工 作 的 。 接 下 来 学 习 如 何 使 用 它 进行 文字 检测 、 提 取 和 


识别 。 


11.2.1 文本 检测 


让 我 们 开始 创建 一 个 简单 的 程序 来 使 用 ERFilters 进 行文 本 分 割 。 在 这 个 程序 中 ， 将 使 用 文本 识别 API 提 供 的 训练 分 类 器 。 你 
可 以 从 OpenCV 的 库 下 载 它 们 ， 在 本 书 的 配套 代码 中 也 已 提供 。 


首先 引入 必要 的 组 件 : 


#include "opencv2/highgui .hpp" 
#include "opencv2/imgproc.hpp" 
#include "opencv2/text .hppn 


#1include <vector> 
#include <iostream> 


usSing namespace std,; 
USing namespace cv; 
usSing namespace cv::text,; 


上 一 部 分 介绍 到 ERFilter 分 别 工作 在 图 像 的 每 一 个 通道 ， 所 以 必须 提供 一 种 方法 ， 把 每 个 期 望 的 通道 分 隔 成 单独 的 cv: : 


Mat 通 道 。separateChannels 函 数 实 现 了 这 些 : 


Vector<Mat> separateChannels (Mat& src) 
Vector<Mat> channels,; 
// 灰 度 图 像 
if (src.type() == CV 8U || src.type() == CV 8UC1) { 
channels.push back (src); 
channels.push back (255-src); 
return channels; 


// 彩 色 图 像 
if (src.type() == CV 8UCc3) { 


computeNMChannels (src, channels); 


static cast<int>(channels.size())-1; 


int size = 
For Hinb 过 = 
channels.push back (255-channels [cj ) ; 


C < SlzZe;: C++) 


return channels,; 


/ /其 他 类 型 


"Invalid image format!" << endl]l,; 


GOUG ee 
exit(-1).， 


首先 验证 图 像 是 单 通道 图 像 (如 灰 度 图 像 ) 。 如 果 是 ， 那 么 只 添加 这 个 图 像 ， 并 不 对 其 进行 处 理 。 


另 一 方面 ， 当 检查 出 图 像 是 RGB 图 像 ， 调 用 computeNMChannels 
OutputArrayOfArrays channels, 


肖 数 来 分 割 图 像 ， 廊 法 如 下 : 


void computeNMChannels (InputArray src, 


int mode = ERFILTER NM RGBLGrad),; 


参数 如 下 : 


rc: 输入 数组 源 。 它 应 该 是 8UC3 类 型 的 彩色 图 像 。 


channels: 这 是 一 个 向 量 组 存储 结果 通道 。 


定义 将 被 计算 出 来 的 通道 。 它 有 以 下 两 个 值 : 


. mode: 
. ERFILTER_NM_RGBLGrad: 算法 使 用 RGB 颜色 ， 亮 度 和 梯度 大 小 为 通道 (默认 ) 。 
过 亮度 、 色 调 、 饱 和 度 和 梯度 大 小 进行 


尔 数 将 终止 程序 并 报 儿 。 


. ERFILTER_NM_IHSGrad: 这 个 图 像 将 通 


我 们 还 对 向 量 中 的 颜色 组 成 使 用 反 色 。 最 后 ， 如 果 另 一 种 图 像 被 提供 ， 


CE& 3 Se es 、 a AAA 、 、 、 > 、 
V 一 反 色 是 包含 在 暗 背 景 亮 文本 和 深 色 文本 亮 背 景 的 算法 。 在 梯度 大 小 反 色 是 没有 意义 的 。 


下 面 来 看 main 函 数 。 使 用 程序 分 割 easel.png， 源 代码 中 提供 了 这 张 图 : 


这 张 照 请 是 我 在 街 上 用 手机 担 摄 的 。 可 以 在 第 一 段 代 码 中 改变 名 称 以 使 用 不 同 图 像 


It main(int aroe， Sconest chaz * argqvl]j) 
char* image = argc < 2 ? "easel.png" : argv|ll1]; 
auto input = imread (image),; 


接 下 来 将 图 像 转 换 成 灰 度 图 ， 然 后 使 用 separateChannels 方 法 分 割 通道 : 


Mat processed; 
cvtColor(input, processed, CV RGB2GRAY) ; 
auto channels = separateChannels (processed).,; 


如 果 你 想 使 用 彩色 图 像 ， 只 需要 用 下 面 的 代码 蔡 换 前 两 行 : 


Mat processed = input; 


下 面 将 分 析 6 个 通道 (RGB+ 反 转 ) 而 不 是 两 个 通道 ( 灰 度 + 反 转 ) 。 实 际 上 ， 处 理 时 间 增 加 的 比 获 得 的 提升 要 更 多 。 并 行 
的 通道 需要 创建 一 个 针对 两 个 场景 算法 的 ERFilters 对 象 。 万 幸 的 是 opencv text 模 块 提 供 了 这 样 的 方法 : 

// 创建 具有 第 一 场景 和 第 二 场景 的 分 类 器 的 ERFilter 对 象 

auto filterl = createERF1l]terNM] ( 


loadClassifierNM1 ("trained classifierNM]1 .xml"), 15, 0.00015f, 
DO.13F. 有 5 在 EES, 0 TE] 


auto filter2 = createERF11lterNM2 ( 
loadClassifierNM2 ("trained classifierNM2 .xml"),0.5); 


第 一 场景 调用 loadClassifierNM1 消 数 去 加 载 先 前 训练 好 的 分 类 模型 。 包 含 训练 数据 的 XML 是 其 唯一 的 参数 。 然 后 调用 
createERFilterNM1 去 创建 一 个 ERFilter 类 的 实例 来 执行 分 类 器 。 这 个 函数 具有 以 下 特征 : 


Ptr<ERF1ilter> createERF1ilterNM]1 (const Ptr<ERFilter::Callback>& cb， 
int thresholdDelta = 1, 
float minArea = 0.00025, float maxArea = 0.13, 
float minpPprobability = 0.4, bool nonMaxSuppression = true, 
float minProbabilityDiff = 0.1); 


参数 摘 述 如 下 : 
: cb: 被 分 类 的 模型 ， 与 通过 loadCassifietNM1 函 数 加 载 的 一 致 。 
. thresholdDelta: 在 每 一 次 算法 迭代 中 添加 的 阅 值 。 默 认为 1， 本 例 中 设 为 15。 
minArea: 可 以 找到 文字 的 区 域 ER 的 最 小 值 ， 以 图 像 大 小 的 百分比 为 基准 ， 小 于 这 个 基准 的 区 域 立刻 会 被 丢弃 。 
maxArea: 可 以 找到 文字 的 区 域 ER 的 最 大 值 ， 以 图 像 大 小 的 百分比 为 基准 ， 大 于 这 个 基准 的 区 域 立刻 会 被 丢弃 。 
minProbability: 区 域 发 现 字 符 并 保留 到 下 一 阶段 的 最 小 可 能 性 值 。 
` nonMaxSuptession: 表明 在 每 个 可 能 的 分 支 完 成 时 的 非 极 大 值 抑 制 。 
- minProbabilityDiff: 最 小 极 值 和 最 大 极 值 区 域 之 间 的 最 小 概率 差异 。 


第 二 场景 过 程 与 第 一 场景 过 程 类 似 。 调 用 loadClassifierN M 2 方法 加 载 第 二 场景 用 到 的 分 类 器 模型 ， 然 后 调用 
createERFilterNM2 卫 数 创建 第 二 场景 分 类 器 。 这 个 函数 只 执行 被 加 载 的 区 域 中 入 参 为 一 个 字符 的 分 类 器 模型 ， 以 保证 尽量 少 的 
计算 次 数 。 


所 以 ,调用 这 些 算法 中 的 每 个 通道 ， 以 确定 所 有 可 能 出 现 文 本 的 区 域 : 


/ /用 Newmann 和 Matas 算法 提取 文本 区 域 

Cout << "Processing " << channels.size() << " channels...",; 
Cout << endl.; 

Vector<Vector<ERStat> > regions (channels.size()); 

for (int c=0; c < channels.size(); c++) 


{ 


Boul ce 1 Channel " << (c+l1) << endl.， 
filterl->run(channels[c], regions[c]); 
filter2->run(channels[c], regions [Cj ) ; 


| 


filterl.release (); 
filter2.release():; 


前 面 的 代码 使 用 ERFilter 类 的 run 消 数 。 这 个 方法 包谷 以 下 两 个 参数 : 
input channel: 将 要 被 处 理 的 图 像 。 


regions: 在 第 一 场景 的 算法 ， 这 个 参数 会 充满 被 检测 的 区 域 。 在 第 二 场景 (由 filtert2 执 行 ) ， 这 个 参数 必须 包含 在 第 一 场 
景 所 选择 的 区 域 ， 然 后 被 处 理 并 通过 第 二 场景 的 滤波 。 

最 后 释放 这 两 个 滤波 器 ， 因 为 程序 不 再 需要 它们 。 

分 割 的 最 后 一 步 是 对 所 有 ER Regions 对 其 可 能 是 的 单词 进行 分 组 ， 并 定义 它们 的 边框 ， 这 些 通 过 调用 erGrouping 阔 数 完 
成 : 


// 从 区 域 分 离 字 符 
Vector< Vector<Vec21> > groups; 
vector<Rect> groupRects,; 


erGrouping (input, channels, regions, groups, groupRects, ERGROUPING 
ORIENTATION HORIZ),; 


这 个 方法 有 以 下 的 签名 : 


volid erGrouping (InputArray img, InputArrayOfArrays channels, 
std: :Vector<Stda: :Vector<ERStat> > &regions, 
std: :vector<std::vector<Vec21i> > &groups, 
std: :vector<Rect> &groups rects, 
int method = ERGROUPING ORIENTATION HORIZ, 
const std::string& filename = std::string(), 
float minprobablity = 0.5); 


每 个 参数 定义 如 下 : 

.img: 输入 的 原始 图 像 ， 可 以 作为 执行 完毕 后 的 参考 。 

. tegions: 这 是 存储 被 提取 的 区 域 单 通道 图 像 向 量 。 

. groups: 这 是 分 组 区 域 索 引 的 输出 向 量 。 每 个 分 组 区 域 包 含 单个 单词 的 所 有 极 值 区 域 。 
. groupRects: 检测 到 的 矩形 文本 区 域 列表 。 


. method: 分 组 的 方法 ， 值 如 下 所 示 : 


.ERGROUPING_ORIENTATION_HORIZ: 默认 值 。 只 能 通过 穷 举 搜索 产生 水 平方 向 的 文本 组 ， 由 Meumann 和 Matas 最 


初 提 出 。 


及 


-ERGROUPING_ORIENTATION_ANY: 使 用 单 连接 聚 类 和 分 类 
模型 的 文件 名 必须 在 接 下 来 的 参数 中 提供 。 


误 


创建 支持 各 个 方向 的 文字 组 。 如 果 使 用 此 方法 ， 分 类 


. Filename: 分 类 器 模型 名 称 ， 仅 当选 中 ERGROUPING_ORIENTATION_ANY 时 必 填 。 

minProbability: 接受 一 组 数据 的 最 低 检 测 概率 ， 仅 当选 中 ERGROUPING_ORIENTATION_ANY 时 必 填 。 
代码 也 提供 了 调用 第 二 种 方法 的 例子 ， 它 处 于 注释 状态 。 你 可 以 注释 前 面 的 调用 ， 并 取消 这 段 的 注释 ， 来 测试 两 者 之 间 的 差 
erGrouping (input, channels, regions, 


groups, groupRects, ERGROUPING ORIENTATION ANY, 
"trained classifier erGrouping.xml", 0.5); 


对 于 这 个 调用 ， 还 可 以 使 用 文字 识别 模块 包 中 的 默认 训练 分 类 器 。 
最 后 ， 纵 制 区 域 图 像 并 显示 结果 : 


// 绘制 区 域 图 像 
for (auto rect : groupRects,) 
rectangle(input, rect, Scalar(0, 255, 0), 3); 
imshow ("grouping",1input).; 
walitKey(0),; 


输出 图 像 如 下 图 所 示 : 


| grouping 


你 可 以 在 detection.cpp 文 件 中 阅读 到 全 部 代码 。 


bug， 例 如 erGrouping， 更 多 信息 可 参考 https:// aithub.com/ TItseez/opencv_contrib/issues/ 309。 


谨 记 ，OpenCV 的 开源 贡献 模块 包 不 像 默 认 OpenCV 包 一 样 稳定 。 


爹 测 完 区 域 ， 需 要 在 提交 给 OCR 之 前 裁剪 文本 。 可 以 使 用 简单 的 函数 如 getRect9ubpix 或 Mat: 


为 ROI。 然 而 由 于 字母 倾斜 ， 一 些 预料 之 外 的 字母 也 会 被 裁剪 进来 ， 如 下 图 所 示 : 


所 大 部 分 的 OpenCV 文 本 检测 方法 支持 灰 度 和 彩色 图 像 作 为 输入 参数 ， 在 编写 本 书 时 ， 有 一 些 方法 在 使 用 灰 度 图 时 还 有 


: Copy 将 每 个 矩形 区 域 作 


平 运 的 是 ，ERFilter 为 我 们 提供 了 名 为 ERStat 的 对 象 ， 它 包含 每 个 极 值 区 域内 的 像素 。 有 了 这 些 像素 ， 我 们 可 以 使 用 
OpenCV 的 floodFill 肖 数 重 构 每 个 字母 。 这 个 遂 数 能 够 根据 图 像 中 的 种 子 点 绘制 同样 颜色 的 像素 ， 就 像 大 多 数 绘 图 软件 ， 例 如 
bucket 工 具 。 这 个 函数 如 下 代码 所 示 : 


int floodFill (InputOutputArray image, InputOutputArray mask, 


Point seedPoint, Scalar newVal, 
GV OUL KecL™ rect=U: 


Scalar loDiff = Scalar(), Scalar upDiff = Scalar(}), 
int flags = 4 
上 


看 看 该 消 数 有 哪些 参数 ， 以 及 如 何 使 用 : 


` image: 输入 图 像 。 会 使 用 通道 图 像 并 在 其 中 采取 极 值 区 域 。 这 是 方法 填充 图 层 的 地 方 ， 除 非 FLLOODFILL MASK_ONLY 
被 设置 为 真 。 在 这 种 情况 下 ， 图 像 保 持 不 变 ， 绘 制 发 生 在 履 盖 层 ， 这 正 是 我 们 将 要 做 的 。 


“ mask: 禾 盖 层 必 须 是 一 个 行 和 列 大 于 输入 图 像 的 图 像 。 当 图 层 填 充 到 一 个 像素 ， 它 验证 在 和 覆盖 层 相 应 的 像素 是 否 为 空 。 为 
空 时 ， 它 将 绘制 像素 并 标记 它 为 唯一 〈 或 其 他 值 传 递 的 标志 ) 。 如 果 像 素 不 为 空 ， 填 充 图 层 无 法 绘制 像素 ， 将 提供 一 个 空 的 覆盖 
必 ， 所 以 每 个 字母 都 会 在 履 盖 层 绘制 。 


. seedPoint: 起 点 。 类似 于 使 用 “bucket 工具 的 图 形 处 理 程序 时 点 击 的 地 方 。 
. newVal: 重新 绘制 像素 后 的 新 值 。 


loDiff 和 upDiff: 这 些 参数 代表 正在 处 理 的 像素 和 其 邻 域 之 间 的 下 和 上 的 差异 。 它 落 在 这 个 范围 内 的 邻 域 像素 将 被 绘制 。 如 


果 FLOODFILL _FIXED_RANGE 标 志 位 为 真 ， 种 子 点 和 被 处 理 的 像素 之 间 的 差 将 被 替代 。 
` fect: 可 选 参数 ， 限 制 被 填充 图 层 的 区 域 。 
` flags: 该 值 由 一 个 位 掩 码 来 表示 。 


. 这 一 标志 包含 连通 值 ， 最 小 显示 8 位 。 值 4 表示 四 个 边 的 像素 ， 值 8 表示 对 角 像 素 也 要 被 考虑 到 ， 这 里 我 们 选择 4 作为 参 


接 下 来 的 8 至 16 位 包含 从 1 到 255 的 值 ， 并 且 用 于 填充 覆盖 层 。 填 充 白色 层 将 使 用 255<<8 的 值 。 


. 还 有 两 位 可 以 添加 之 前 描述 的 FLOODFIILTL _ FIXED RANGE 和 FLOODFIILTL MASK_ONLY 标 志 。 
创建 一 个 名 为 drawER 的 函数 ， 它 有 四 个 参数 : 
: 所 有 处 理 的 通道 向 量 
. ERStat 区 域 
必须 绘制 的 组 
适 形 组 
这 个 函数 会 返回 一 个 图 像 和 这 个 组 代表 的 词 。 接 下 来 开始 通过 创建 覆 兰 图 像 和 定义 标志 位 来 学 习 这 个 为数 : 


Mat out = Mat: :Zeros (channel1s [0」 .zowSs+2，channels [0] .cols+2, CV 8UC11) ; 


int flags = 4 / /4 个 领域 
+ (255 << 8) // 用 白色 绘制 面具 
+ FLOODFILL FIXED RANG FE / /和 履 盖 区 域 
+ FLOODFILL MASK _ ONLY ; / /绘制 合适 面具 


然后 ， 循 环 每 一 个 组 去 寻找 区 域 款 3 引 和 它 的 状态 。 如 这 个 极 站 区 域 是 根 ， 它 不 包含 任何 点 ， 那 么 残 忽略 它 


for (int g=0; g9 < group.size(); g++) 


人 
int idx = group[g] [0] ; 
ERStat er = regions [idx] [group lg] [1]]; 


/ /忽略 根 区 域 
If (er.parent == NULL) 


continue; 


现在 可 以 看 到 ERStat 对 象 中 的 像素 坐标 。 它 是 由 像素 数 表示 的 ， 由 上 到 下 、 从 左 到 右 计数 。 这 种 线性 指标 必须 转换 成 排 
(y) 和 列 (z) 的 坐标 ， 使 用 类 似 于 我 们 在 第 2 章 中 讨论 的 一 个 公式 : 


lnt px = er.pixel % channels [idx|] .cols; 
int py = er.pixel / channels [idx] .cols; 


Point p(px; py}; 
然后 调用 floodFil 函 数 ，ERStat 对 象 给 了 loDiff 需 要 用 到 的 参数 : 


EL- LE lL 


channels [idx] , out, / /图 像 和 掩 模 

p, Scalar(255), // 起 始点 和 色 值 

lbh 和) wr a /没有 矩形 区 域 
Scalar (er.level) ,Scalar (0), // 负 差 和 正 差 

flags / /操作 标志 符 


当 对 所 有 区 域 执行 这 样 的 操作 后 得 到 的 图 像 比 原始 的 大 一 点 ， 最 终 的 图 有 黑色 背景 和 日 色 字母 的 字 。 现 在 裁剪 有 字母 的 区 
域 ， 我 们 把 这 一 算 形 区 域 定 义 为 兴趣 区 域 : 


Out = out (ect) ; 


然后 寻找 所 有 非 零 像 素 ， 它 的 值 将 在 minAreaRect 消 数 中 使 用 ， 以 获得 在 字母 周围 族 转 的 矩形 区 域 。 最 终 ， 借 用 上 一 章 的 
deskewAndCrop 冰 数 按 需 求 裁 划 并 旋转 图 像 : 


Vector<Polnt> points,; 

findNonZero(out, points); 

// 使 用 deskew And Crop 函数 完美 地 前 切 人 矩形 

return deskewAndCrop (out, minAreaRect (Polnts) ) ; 


Qe gd 


下 图 是 画 架 上 文字 的 处 理 结 


11.2.3 ”文字 识别 


在 第 10 章 中 ， 我 们 直接 使 用 Tesseract API| 来 识别 文本 区 域 。 这 一 次 将 使 用 OpenCV 的 类 来 完成 相同 的 目标 。 


在 OpenCV 中 ， 所 有 的 OCR 类 都 是 从 BaseOCR 虚 基 类 派生 的 ， 文 字模 块 默认 提供 下 面 这 三 种 实现 : OCRTesseract、 
OCRHMMDecoder 和 OCRBeamsSearchDecoder。 


它们 的 继承 天 系 如 下 图 所 示 : 


BaseOCR 


OCRTesseract OCRHMMDecoder OCRBeamSearchDecoder 


凭借 这 种 方法 ， 当 OCR 机 制 创建 并 执行 目 己 时 ， 可 以 分 离 部 分 代码 ， 这 让 以 后 更 改 OCR 的 实现 更 加 轻松 。 


所 以 现在 开始 创建 一 个 基于 字符 实现 的 方法 。 目 前 支持 Tesseract。 你 可 以 浏览 本 章 代码 ， 其 中 还 有 关于 HMMDecoder 的 
演示 。OCR3 引 擎 名 称 运行 字符 串 作 为 参数 ， 还 可 以 从 外 部 JJON 或 XML 配置 文件 读 取 它 以 提高 应 用 灵活 性 : 


cvV::PLr<BaseOCR> initOCR2 (const String& ocr) 


if (ocr == "tesseract") { 
return OCRTesseract::create(nullptr, "eng+por"); 
throw string("Invalid OCR engine: ") + ocr; 


注意 这 个 函数 返回 一 个 PTR<BaseOCR>。 粗 体 代码 调用 create 万 法 来 初始 化 Tesseract OCR 实 例 。 它 的 官 万 签名 允许 多 个 
具体 参数 : 
Ptr<OCRTesseract> Create (const char* datapath=NULL, 
const char* language=NULL, 


const char* char whitelist=NULDL, 
int oem=3, int Psmodqe=3) ; 


接 下 来 分 析 一 下 这 些 参数 : 


datapath: 这 是 位 于 路 径 根 目录 的 tessdata 文 件 。 这 一 路 径 必 须 以 反 斜 杠 / 字 符 结 来 。 这 个 tessdata 目 录 包 含 被 安装 的 语言 文 
件 。 传 入 nullptr 到 这 个 参数 ，Tesseract 就 会 自己 搜索 默认 的 安装 路 径 。 通 常 修改 这 个 值 成 args[0] 来 部 署 应 用 程序 ， 并 将 tessdata 文 件 
夹 包含 到 路 径 中 。 


` language: 用 三 个 字符 代表 语言 码 〈 如 eng 代 表 英 文 ，pot 代 表 葡 萄 牙 语 ，hin 代 表 印 度 文 ) 。Tessetact 支 持 用 + 号 加 载 多 个 语 
言 ， 所 以 eng+pot 将 加 载 英语 和 葡萄 牙 语 。 当 然 ， 你 只 能 使 用 你 之 前 安装 的 语言 ; 否则 加 载 将 失败 。 一 种 语言 的 配置 文件 可 以 指 
定 两 个 或 更 多 的 语言 但 是 必须 一 起 载 入 。 为 了 防止 这 种 情况 ， 你 可 以 使 用 波浪 号 ~ 连接 两 种 语言 。 例 如 ， 你 可 以 使 用 hin~eng， 以 
保证 英语 没 和 印度 语 一 起 加 载 ， 即 使 它 被 这 样 配置 。 


whitelist: 设置 识别 考虑 的 字符 ， 如 果 传 入 hullptt， 字 符 将 是 


0123456789abcdefehijklmnopgrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ。 
oem: 将 使 用 的 OCR 算法 ， 它 可 以 有 以 下 值 : 
. OEM_TESSERACT_ONLY: 只 使 用 Tessetact， 这 是 最 快 的 方法 ， 但 是 有 着 最 低 的 精度 。 


-OEM_CUBE_ONLY: 立方 引擎 ， 速 度 慢 但 是 更 加 精确 ， 它 只 在 你 的 语言 引擎 支持 训练 时 起 作用 。 在 你 的 语言 下 的 
tessdata 文 件 夹 中 寻找 .cube 文 件 以 了 解 支 持 与 和 否 。 保 证 支持 英语 。 


. OEM _TESSERACT _ CUBE_ COMBINED: 结合 Tessetact 和 立方 引擎 以 实现 最 佳 的 OCR 分 类 。 这 个 引擎 拥有 最 佳 的 精度 


和 最 慢 的 执行 时 间 。 


- OEM_DEFAUILT: 根据 语言 配置 文件 或 者 命令 行 配 置 文件 制定 策略 ， 如 果 两 个 都 没有 ， 则 使 用 


OEM_TESSERACT_ONLY。 
:bsmode: 这 是 一 个 分 割 模式 ， 可 选择 的 模式 如 下 : 
“ PSM_OSD_ONLY: Tesseract 只 运行 预 处 理 算 法 来 检测 方向 和 脚本 检测 。 
` PSM_AUTO_OSD: Tesseract 做 自动 页 面 分 割 与 方向 和 脚本 检测 。 


` PSM_AUTO_ONLY: 仅 做 页 面 分 割 ， 不 做 方向 和 脚本 检测 或 OCR， 这 是 默认 值 。 


. PSM_AUTO: 仅 页 面 分 割 和 OCR， 不 做 方向 和 脚本 检测 。 


. PSM_SINGLE_COLUMN: 假设 变量 大 小 和 文本 显示 在 一 列 。 


. PSM_SINGLE_ BLOCK VERT TEXT: 把 图 像 作 为 重 直 对 齐 文本 的 一 个 统一 块 。 


. PSM_SINGLE BLOCK: 单独 一 块 文本 ， 这 是 默认 值 。 我 们 用 此 标志 在 预 处 理 阶 段 保证 这 个 条 件 。 


. PSM_SINGLE _LINE: 图 像 只 包含 单行 文本 。 


. PSM_SINGLE WORD: 图 像 只 包含 单个 单词 。 


. PSM_SINGLE_WORD_CIRCLE: 图 像 只 包含 单个 单词 在 一 个 圈 里 。 


. PSM_SINGLE_CHAR: 图 像 只 包含 单个 字母 。 


最 后 两 个 参数 ，#include tesseract 目 录 推 荐 使 用 弟 量 而 不 是 直接 赋值 。 


最 后 一 步 将 文本 检测 放 入 主 函 数 中 ， 只 需要 把 如 下 代码 放 入 主 函 数 的 最 后 : 


auto ocr = initOCR ("tesseract").，; 
for (int i = 0; i < groups.size(); i++) 
Mat wordImage = drawER (channels, regions, groups [1], 


groupRects [ 工 ]j ) ; 
string word; 
ocr->run (wordIimage, word),， 
Cout << word << endl; 


在 这 段 代 码 中 调用 initOCR 贞 数 去 创建 一 个 Tesseract 实 例 。 如 果 选 择 了 不 同 的 OCR 引擎， 剩余 的 代码 将 不 会 改变 。 因 为 运 
行 方法 是 由 BaseOCR 方 法 保证 的 。 


接 下 来 所 历 每 个 检测 到 的 ERFilter 组 。 由 于 每 个 组 代表 一 个 不 同 的 词 ， 我 们 需要 : 
: 调用 先前 创建 的 dtawER 函 数 去 创建 一 个 包含 单词 的 图 像 。 
- 创建 一 个 名 为 wotd 的 字符 串 ， 并 调用 ran 函数 来 识别 单词 的 形象 。 识 别 的 单词 将 被 存储 在 字符 串 中 。 
` 把 文本 符号 打印 在 屏幕 上 。 


再 来 看 看 run 廊 法 签名 。 这 种 万 法 是 在 BaseOCR 类 中 定义 的 ， 并 和 特定 实现 中 的 万 法 一 致 ， 甚 至 可 能 与 在 将 来 实现 的 那些 一 


virtual void un (Mat& image, std::string& output text, 
std: :vector<Rect>* component rects=NULL, 
std: :vector<std::string>* component texts=NULL, 
std: :vector<float>* component confidences=NULL, 


int component level=0) = 0; 


当然 ， 这 是 必须 由 每 个 特定 的 C 类 (如 我 们 刚才 所 用 的 OCR Tesseract 类 ) 实现 纯 虚 拟 消 数 : 


` image: 输入 图 像 ， 必 须 是 RGB 图 像 或 者 灰 度 图 像 。 

component_tects: 提供 由 OCR 引擎 检测 的 框 来 填充 边界 各 组 分 ( 字 或 文本 行 ) 。 
. component_texts: 如 果 存 在 ， 这 个 方法 将 包含 被 OCR 检测 的 每 个 组 件 的 文本 串 。 
: component_confidences: 如 果 存 在 ， 这 个 方法 将 包含 浮 点 数 和 每 个 组 件 的 置信 值 。 


:component level: 定义 了 部 件 是 什么 。 它 可 能 有 OCR_LEVEL WORD (默认 值 ) 或 OCR_LEVEL TEXT _LINE 这 两 个 值 。 


部 如 果 需 要 ， 我 们 更 愿意 在 run () 吻 数 中 更 改组 件 的 等 级 ， 而 不 是 在 psmode 参 数 的 create () 函数 中 更 改 。 在 tun 方 法 中 更 
改 是 更 优 的 选择 。 因 为 OCR 引擎 会 决定 实现 BaseOCR 类 的 方法 ， 谱 记 使 用 create () 方法 用 来 设置 特殊 的 配置 。 


程序 最 终 输 出 如 下 图 所 示 : 


男 ] C:\Projetos\VisuaN\OpenCVText\Debug\OpenCYV Text.exe 


Process1ing 2 channels... 
Ghannel 1 
Channel 2 


Detected text: 


Es TAMOS 


AITENDENDO 


CASA 8E PRESENTES 


尽管 识别 出 来 的 对 && 符 号 还 有 轻微 的 困惑 ， 但 是 每 个 单词 都 被 完美 地 识别 出 来 了 。 你 可 以 在 ocr.cpp 文 件 中 找到 完整 的 代码 


11.3 总结 


在 本 章 中 ， 我 们 看 到 了 一 个 比 扫 拉 文本 难得 多 的 屏幕 文本 识别 的 OCR 案例 。 我 们 学 习 了 文本 模块 如 何 使 用 Newmann 和 
Matas 算 法 识别 极 值 区 域 来 解决 这 个 问题 。 然 后 还 使 用 这 个 API 和 floodfil 方 法 将 文本 中 提取 到 的 图 像 提 交 给 Tesseract OCR 来 处 
理 。 最 后 研究 了 如 何 将 OpenCV 的 文本 模块 同 Tesseract 及 OCR 结合 使 用 ， 以 及 如 何 使 用 它们 来 确定 图 像 里 的 字 。 


马上 要 结束 我 们 的 OpenCV 之 旅 了 。 从 头 到 尾 读 完 这 本 书 ， 我 们 希望 你 能 宽 得 计算 机 视 党 领域 的 奥妙 ， 并 且 了 解数 个 应 用 是 
如 何 工作 的 。 与 此 同时 我 们 也 试图 向 你 展示 OpenCV 是 个 令 人 惊艳 的 库 ， 这 个 领域 内 元 满 了 改进 和 研究 的 机 会 


感谢 你 的 阅读 ! 无 论 你 是 否 在 使 用 OpenCV 创 建 基于 计算 机 视 党 的 令 人 印象 深刻 的 商业 程序 ， 又 或 是 你 企 使 用 它 进行 研究 ， 
它 都 将 改变 世界 ， 我 们 希望 你 友 现 这 尝 内 容 非 党 有 用 。 不 断 提升 你 的 工作 技能 ， 这 仅仅 是 个 开始 ! 


